
Python机器学习(八十六)Pandas 数据集信息
发布日期:2021-05-14 00:15:14
浏览次数:18
分类:博客文章
本文共 1095 字,大约阅读时间需要 3 分钟。
info
使用.info
方法,可以查看数据集的基本信息:
movies_df.info()
输出
Index: 1000 entries, Guardians of the Galaxy to Nine LivesData columns (total 11 columns):Rank 1000 non-null int64Genre 1000 non-null objectDescription 1000 non-null objectDirector 1000 non-null objectActors 1000 non-null objectYear 1000 non-null int64Runtime (Minutes) 1000 non-null int64Rating 1000 non-null float64Votes 1000 non-null int64Revenue (Millions) 872 non-null float64Metascore 936 non-null float64dtypes: float64(3), int64(4), object(4)memory usage: 93.8+ KB
上面的输出信息中,包含了行和列的数量、非空值的数量、每个列中的数据类型以及DataFrame数据使用了多少内存。
可以看出,在Revenue
和Metascore
列中有一些缺失值,后面章节将会讨论怎么处理这些缺失值。
快速查看数据类型很有用。例如,假设你刚刚导入了一些JSON,有些整数字段类型有可能被变为字符串,当计算时用到这些字段就会报“不支持的操作数”的错。调用.info()
查看一下,就可以清楚看到整数列实际上都被变为了字符串。
shape
另一个有用的属性是.shape
,表示DataFrame的形状(行、列)。
movies_df.shape
输出
(1000, 11)
注意,.shape
是属性,不是函数(没有圆括号),它是一个元组(行、列)。可以看到,数据集movies DataFrame中有1000行和11列。
在清理和转换数据时,你可能会根据某些条件过滤一些行,然后想要知道删除了多少行,就可以使用.shape
方法快速查看。
发表评论
最新留言
哈哈,博客排版真的漂亮呢~
[***.90.31.176]2025年04月07日 19时10分03秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
算法训练 未名湖边的烦恼(递归,递推)
2019-03-11
算法训练 完数(循环,数学知识)
2019-03-11
什么是接口
2019-03-11
2020版nodejs12.18.3安装配置教程
2019-03-11
iview组件库中,Form组件里的Input,无法正确绑定on-enter事件
2019-03-11
记录-基于springboot+vue.js实现的超大文件分片极速上传及流式下载
2019-03-11
JavaScript高级程序设计第四版学习记录-第九章代理与反射
2019-03-11
怎么解决Windows 10文件/文件夹正在使用无法删除
2019-03-11
F28335第九篇——通用IO
2019-03-11
STM32F429第十一篇之数据类型
2019-03-11
web项目开发记录
2019-03-11
matlab函数:sprintf详解
2019-03-11
matlab函数:fix 向0取整
2019-03-11
ORCAD创建元件库时,格点对不起怎么办
2019-03-11
Allegro中如何消除器件本身Pin间距报错
2019-03-11
AD中拖动器件,无法移动在一起如何解决
2019-03-11
linux--练习001-基础类型
2019-03-11
python内存地址和编译字节码
2019-03-11
Flask--简介
2019-03-11
Flask模板--过滤器与测试器
2019-03-11