Python数据处理笔记03--pandas数据结构-白红宇的个人博客

发布日期：2021-05-08 02:54:19 浏览次数：22 分类：精选文章

本文共 2014 字，大约阅读时间需要 6 分钟。

声明：本文环境为Windows10+jupyter notebook，请自行下载安装Anaconda

引言：

Pandas是基于Numpy的一种工具，旨在解决数据分析任务。Pandas纳入了大量库和标准数据模型，为操作大型数据集提供了高效工具。Pandas提供了丰富的函数和方法，使数据处理更加快速便捷。Pandas由PyData开发团队继续开发和维护，最初作为金融数据分析工具开发，且对时间序列支持非常好。

【Pandas库介绍】

Pandas是Python第三方库，提供高性能数据类型和分析工具，基于Numpy实现，常与Numpy和Matplotlib一同使用。Pandas有两大核心数据结构：Series（一维数据）和DataFrame（多特征数据）。

》》Series：

Series是一维数组，与Numpy的array类似，但允许存储相同数据类型，提高了内存使用效率。Series与Numpy的一维数组相比，更适合处理标有索引的数据。

》》Time-Series：

以时间为索引的Series。

》》DataFrame：

带有行和列标签的二维表格型数据结构，可以看作是Series的容器。

》》Panel：

三维数组，可以理解为DataFrame的容器。

Series

Series是一维数组，包含数据和对应的索引。创建Series的函数为`pandas.Series(data, index, dtype, copy)`。

Series创建方法：

1. 使用Python数组创建：`pd.Series([11,12], index=["北京","上海"])`。 2. 使用Numpy数组创建：`pd.Series(np.arange(3,6))`。 3. 使用字典创建：`pd.Series({"北京":11,"上海":12,"深圳":14})`。

Series的特点：

- 字符串表现形式为：索引在左，值在右。 - 如果没有指定索引，默认创建0到N-1的整数索引。 - 可以通过`values`和`index`属性获取数组表示和索引对象。 - 支持通过索引方式选择单个或一组值。

示例：

`obj = pd.Series([4,7,-5,3])` `obj[2]`返回单个值，`obj[[0,1,3]]`返回多个值。 `obj2 = pd.Series([4,2,-5,3], index=["a","b","c","d"])`，可以通过`obj2['a']`获取单个值。

Series的重要功能：

- 支持索引对齐，能够在算术运算中自动处理不同索引的数据。 - Series本身及其索引都有`name`属性。

DataFrame

DataFrame是一个表格型数据结构，包含有序的列，每列可以有不同的数据类型。DataFrame既有行索引也有列索引，可以看作由Series组成的字典。DataFrame中的数据以二维快存储，支持面向行和面向列的操作。

DataFrame创建方法：

1. 从嵌套列表创建：`pd.DataFrame([[‘Alex’,10],[‘Bob’,12],[‘Clarke’,13]], columns=[‘Name’,‘Age’])`。 2. 从字典创建：`pd.DataFrame({‘state’: [‘Ohio’,‘Ohio’,‘Ohio’,‘Nevada’,‘Nevada’], ‘year’: [2000,2001,2002,2001,2002], ‘pop’: [1.5,1.7,3.6,2.4,2.9]})`。 3. 从Numpy数组或Series创建：`pd.DataFrame(data, columns=[‘year’,‘state’,‘pop’])`。

DataFrame的特点：

- 列可以有不同的数据类型。 - 大小可变，行和列都有标签。 - 支持行和列的算术运算。 - 可以通过赋值方式修改列值。

示例：

`frame2 = pd.DataFrame(data, columns=[‘year’,‘state’,‘pop’,‘debt’], index=[‘one’,‘two’,‘three’,‘four’,‘five’])` `frame2[‘debt’] = np.arange(5.0)` `frame2[‘eastern’] = frame2.state == ‘Ohio’`

DataFrame的重要功能：

- 支持通过索引或列名获取对应的Series。 - 列可以通过赋值方式修改，新增或删除列也很简单。 - DataFrame支持转置和嵌套字典的创建。

总结：

Pandas是数据分析的强大工具，Series和DataFrame分别处理一维和多维数据，支持高效的数据操作和算术运算。通过合理使用索引和列名，可以实现数据的灵活处理和可读性提升。

上一篇：前端一点点

下一篇：Python数据处理笔记02--numpy矩阵操作

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

Series

DataFrame

发表评论

最新留言

关于作者

推荐文章