
机器学习之数据探索——数据特征分析(分布分析)
发布日期:2021-05-09 05:59:07
浏览次数:12
分类:博客文章
本文共 613 字,大约阅读时间需要 2 分钟。
数据特征分析与数据质量分析一道构成数据探索的两方面工作,在前文中介绍过关于数据质量分析的概况,本文将对数据特征分析作简介,并着重于分布分析的角度,相比于数据质量分析,数据特征分析更注重于找寻数据间的关系。
数据特征分析包括以下几个分析角度:
1、分布分析2、对比分析3、统计量分析4、帕累托分析5、正态性检验6、相关性分析其上每一个分析角度都有丰富的内容。分布分析
顾名思义,分布分析研究数据的分布特征和分布类型。对于定量数据,需要了解分布形式,发现某些特大特小的异常值,通常用到散点图,频率分布直方图,茎叶图等;对于定性数据,可用饼图或和条形图显示分布情况。
1 定量数据
对于定量数据列,可以从以下步骤获取其分布形式
1 求极差2 求适当的分组区间3 计算各组频率4 绘制频率分布直方图当然对于python而言,可以使用内置方法直接将输入的数据转换为直方图:
将数据转为dataframe形式,对其中某一列使用hist()方法,该函数的参数为需要的分组数,可以手动调至合适的分组数。2 定性数据
对于定性数据,一般可以使用饼图展示其分布状况:
注意:输入上图中函数的数据是统计频数后整理好的,如例中一样,将三个类别的数量统计之后的结果列表作为输入数据。
3 counter函数
上面提到绘制饼图的数据是需要频数统计处理的,那么就需要了解python库函数counter,可以用它方便地进行频数统计:
发表评论
最新留言
关注你微信了!
[***.104.42.241]2025年04月05日 15时48分00秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
关于我
2021-05-09
数据结构实验之栈四:后缀式求值
2021-05-09
sdut 2498【aoe 网上的关键路径】
2021-05-09
【PHP自定义显示系统级别的致命错误和用户级别的错误】
2021-05-09
【JAVA网络流之URL】
2021-05-09
最通俗易懂的囚徒困境
2021-05-09
递推的思维构建与技巧实现
2021-05-09
五道逻辑思维题
2021-05-09
liteide错误: 进程无法启动--解决方法
2021-05-09
Java程序中的代理作用和应用场景及实现
2021-05-09
Java 前台后台数据传递、中文乱码解决方法
2021-05-09
Git报错:Permission denied (publickey)
2021-05-09
常见的图文布局
2021-05-09
Laravel - 上手实现 - 文件上传、保存到 public 目录下
2021-05-09
将mongo设置为windows的服务
2021-05-09
【Flink】Flink 底层RPC框架分析
2021-05-09
【集合框架】JDK1.8源码分析之LinkedList(七)
2021-05-09
【设计模式】命令模式
2021-05-09
Jenkins 集成postman 自动化运行接口测试用例
2021-05-09