Pandas的Series和DataFrame
发布日期:2021-05-14 14:57:57 浏览次数:20 分类:精选文章

本文共 1769 字,大约阅读时间需要 5 分钟。

Pandas入门介绍:了解Series与DataFrame的基础知识

Pandas是Python中一个强大又高效的数据分析工具,它基于NumPy提供了更高级的数据操作功能。需要学习Pandas的原因主要有以下几点:

为什么学习Pandas?

  • 数据处理复杂性:除了数值数据,现代应用常处理多种数据类型,如字符串、日志等。Pandas提供了更全面的操作功能。
  • 数据结构化处理:Pandas通过Series和DataFrame实现了多维数据的处理能力,适合结构化数据分析。
  • 扩展NumPy功能:在NumPy的基础上,Pandas扩展了更多功能,支持数据清洗、时间序列分析等操作。

Pandas简介

Pandas的名称源自“Panel Data”,即面板数据。它提供了一套强大的工具,用于处理和分析结构化数据集。以下是Pandas的核心特点:

  • 灵活的数据结构:支持Series和DataFrame。
  • 高效矩阵操作:利用NumPy实现底层运算,提升计算效率。
  • 丰富的数据操作工具:支持数据清洗、聚合等操作。
  • 应用领域:常用于数据挖� ter和数据分析,特别适合处理结构化数据。

Series概述

Series是Pandas中最基本的数据结构,类似于NumPy的 ndarray。它以标签值对(index,值)组成,适用于一维数据。

Series创建方法

创建Series有几种常见方式:

  • 通过列表构建
  • import pandas as pd
    s1 = pd.Series([1,2,3,4,5])
    1. 通过数值数组构建
    2. arr1 = np.arange(1,6)
      s2 = pd.Series(arr1)
      1. 通过列表或字典构建
      2. s3 = pd.Series({'name':'李宁','age':18,'class':'三班'})

        Series操作示例

        • 检查缺失值
        s1.isnull()    # 判断是否为空
        s1.notnull() # 判断是否不为空
        • 通过索引获取数据
        print(s1.index)  # 查看索引
        print(s1.values) # 查看数据
        • 通过标签获取数据
        print(s1[0])    # 通过下标获取
        print(s1['age']) # 通过标签获取
        • 数据切片和布尔索引
        s1[1:3]       # 切片操作
        s2[s2>3] # 布尔索引
        • 设置名称
        s2.name = 'temp'      # 对象名
        s2.index.name = 'year' # 索引名

        DataFrame介绍

        DataFrame是Pandas中处理多维数据的核心工具,类似于Excel表格。它由行和列共同组成,适用于二维数据的处理与分析。

        DataFrame创建方法

        • 通过字典构建
        data1 = {
        'a': {'apple':3.6,'banana':5.6},
        'b': {'apple':3,'banana':5},
        'c': {'apple':3.2}
        }
        pd2 = pd.DataFrame(data1)
        • 通过NumPy数组构建
        data = {
        'a':[1,2,3,4],
        'b':(5,6,7,8),
        'c':np.arange(9,13)
        }
        frame = pd.DataFrame(data)

        DataFrame操作示例

        • 转置
        pd5 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','c','b'],columns=['A','B','C'])
        pd5.T
        • 获取列数据
        print(pd5['A'])   # 通过列标签获取
        • 添加和删除列
        pd5['D'] = [1,2,3]
        del(pd5['D'])

        作业提示

      3. Series作业:尝试将不同的数据结构转换为Series,并进行基础操作。
      4. DataFrame作业:创建包含多列的DataFrame,实践DataFrame的筛选、排序、添加列等操作。

      5. Pandas为Python数据分析提供了强大的工具支持。通过学习Series和DataFrame,开发者可以更高效地处理结构化数据,提升数据分析能力。

    上一篇:Pandas索引操作、对齐运算、函数应用
    下一篇:机器学习:sklearn实现心脏病预测

    发表评论

    最新留言

    不错!
    [***.144.177.141]2025年04月06日 07时22分40秒