Pandas的Series和DataFrame

发布日期：2021-05-14 14:57:57 浏览次数：20 分类：精选文章

本文共 1769 字，大约阅读时间需要 5 分钟。

Pandas入门介绍：了解Series与DataFrame的基础知识

Pandas是Python中一个强大又高效的数据分析工具，它基于NumPy提供了更高级的数据操作功能。需要学习Pandas的原因主要有以下几点：

为什么学习Pandas？

数据处理复杂性：除了数值数据，现代应用常处理多种数据类型，如字符串、日志等。Pandas提供了更全面的操作功能。

数据结构化处理：Pandas通过Series和DataFrame实现了多维数据的处理能力，适合结构化数据分析。

扩展NumPy功能：在NumPy的基础上，Pandas扩展了更多功能，支持数据清洗、时间序列分析等操作。

Pandas简介

Pandas的名称源自“Panel Data”，即面板数据。它提供了一套强大的工具，用于处理和分析结构化数据集。以下是Pandas的核心特点：

灵活的数据结构：支持Series和DataFrame。

高效矩阵操作：利用NumPy实现底层运算，提升计算效率。

丰富的数据操作工具：支持数据清洗、聚合等操作。

应用领域：常用于数据挖� ter和数据分析，特别适合处理结构化数据。

Series概述

Series是Pandas中最基本的数据结构，类似于NumPy的 ndarray。它以标签值对（index，值）组成，适用于一维数据。

Series创建方法

创建Series有几种常见方式：

通过列表构建：

import pandas as pd
s1 = pd.Series([1,2,3,4,5])

通过数值数组构建：

arr1 = np.arange(1,6)
s2 = pd.Series(arr1)

通过列表或字典构建：

s3 = pd.Series({'name':'李宁','age':18,'class':'三班'})

Series操作示例

检查缺失值：

s1.isnull()    # 判断是否为空
s1.notnull()   # 判断是否不为空

通过索引获取数据：

print(s1.index)  # 查看索引
print(s1.values) # 查看数据

通过标签获取数据：

print(s1[0])    # 通过下标获取
print(s1['age'])  # 通过标签获取

数据切片和布尔索引：

s1[1:3]       # 切片操作
s2[s2>3]      # 布尔索引

设置名称：

s2.name = 'temp'      # 对象名
s2.index.name = 'year'  # 索引名

DataFrame介绍

DataFrame是Pandas中处理多维数据的核心工具，类似于Excel表格。它由行和列共同组成，适用于二维数据的处理与分析。

DataFrame创建方法

通过字典构建：

data1 = {
    'a': {'apple':3.6,'banana':5.6},
    'b': {'apple':3,'banana':5},
    'c': {'apple':3.2}
}
pd2 = pd.DataFrame(data1)

通过NumPy数组构建：

data = {
    'a':[1,2,3,4],
    'b':(5,6,7,8),
    'c':np.arange(9,13)
}
frame = pd.DataFrame(data)

DataFrame操作示例

转置：

pd5 = pd.DataFrame(np.arange(9).reshape(3,3),index=['a','c','b'],columns=['A','B','C'])
pd5.T

获取列数据：

print(pd5['A'])   # 通过列标签获取

添加和删除列：

pd5['D'] = [1,2,3]
del(pd5['D'])

作业提示

Series作业：尝试将不同的数据结构转换为Series，并进行基础操作。

DataFrame作业：创建包含多列的DataFrame，实践DataFrame的筛选、排序、添加列等操作。

Pandas为Python数据分析提供了强大的工具支持。通过学习Series和DataFrame，开发者可以更高效地处理结构化数据，提升数据分析能力。

上一篇：Pandas索引操作、对齐运算、函数应用

下一篇：机器学习：sklearn实现心脏病预测

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！