
箱线图的理解
发布日期:2021-05-06 21:46:45
浏览次数:40
分类:精选文章
本文共 1722 字,大约阅读时间需要 5 分钟。
箱线图概念
箱形图(Box-plot),又称盒须图、盒式图,是一种用来展示数据分散情况的统计图。它能够清晰地反映数据的中位数、四分位数范围以及异常值的位置。箱线图不仅可以直观地展示数据的分布趋势,还能帮助识别数据中的异常值或潜在问题。
箱线图的计算过程
计算上四分位数(Q3),中位数,下四分位数(Q1)
- Q1是将数据分为四个等分后的前一个四分位数。
- Q2是中位数,位于数据的中间位置。
- Q3是上四分位数,是数据的后三个四分位数之一。
计算四分位数差(IQR)
IQR = Q3 - Q1 IQR反映了数据的分散程度,值越大说明数据分布越广。确定箱线图范围
- 箱子的上限为Q3,下限为Q1。
- 箱子内部的中位数位置绘制横线,表示数据的中心位置。
识别异常值
- 异常值是指远离其他数据的点。通常,异常值的定义是:
- 大于 Q3 + 1.5 × IQR 或小于 Q1 - 1.5 × IQR 的值。
- 极端异常值(超出3 × IQR范围的值)用实心点表示,较温和的异常值(处于1.5 × IQR - 3 × IQR之间的值)用空心点表示。
绘制触须
- 在异常值之外的两个最靠近箱线的数据点处绘制横线,作为箱线图的触须。
添加名称和数轴
最后,需要在箱线图中添加适当的标题和数轴,以便更好地理解图表。四分位数的计算
分位数是将数据按照一定规则分成若干等分的统计方法。四分位数作为分位数的一种形式,具有重要的意义和应用。由于大多数统计学教材对其具体计算缺乏详细介绍,尤其是如何根据分组数据计算四分位数,这是一个值得深入探讨的课题。
根据未分组数据计算四分位数
确定四分位数的位置
对于一个包含n个数据的数据集,四分位数的位置可以通过以下公式计算:- 下四分位数(Q1)的位置:(n + 1) / 4
- 中位数(Q2)的位置:(n + 1) / 2
- 上四分位数(Q3)的位置:3 × (n + 1) / 4
这些位置可能会出现小数,因此需要根据实际情况进行调整。例如,如果位置的小数部分较大,则取相邻两个整数的平均值作为四分位数的位置。
根据实际数据计算四分位数
以某车间某月份工人生产某产品的数量为例,数据为:13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤。- Q1的位置为:(11 + 1) / 4 = 3
- Q2的位置为:(11 + 1) / 2 = 6
- Q3的位置为:3 × (11 + 1) / 4 = 9
因此,Q1、Q2、Q3分别为数据集的第3个、第6个和第9个值,即13.8公斤、14.6公斤和15.2公斤。
处理非整数位置的情况
如果(n + 1)不是4的整数倍,位置会出现小数。此时,四分位数的位置需要根据实际数据的分布情况进行插值计算。例如,某数据集的n = 10,则Q1的位置为2.75,Q2的位置为5.5,Q3的位置为8.25。- Q1的位置为2.75,表示第2.75个数据点,通常取第3个数据点的值(13.8公斤)。
- Q2的位置为5.5,表示第5.5个数据点,通常取第5和第6个数据点的平均值(14.3公斤)。
- Q3的位置为8.25,表示第8.25个数据点,通常取第9个数据点的值(15.2公斤)。
绘制箱线图
箱线图的绘制过程可以分为以下几个关键步骤:
确定数据范围和四分位数
- 根据数据计算出Q1、Q2和Q3。
- 确定箱线图的上限(Q3)和下限(Q1)。
绘制箱子
- 在图上绘制一个矩形的箱子,箱子的底部和顶部分别用短横线表示。
- 箱子的中间位置绘制一条横线,表示中位数的位置。
绘制触须
- 在异常值之外的两个最靠近箱线的数据点处绘制短横线,作为箱线图的触须。
标注异常值
- 极端异常值(超出3 × IQR范围的值)用实心点表示。
- 较为温和的异常值(位于1.5 × IQR - 3 × IQR范围内的值)用空心点表示。
添加数轴和标题
- 在箱线图中添加数轴,便于读者理解数据的分布。
- 为图表添加适当的标题和标签,确保图表的信息完整性。
通过以上步骤,可以清晰地绘制出箱线图,并从中提取数据的分布特征和异常值信息。这是数据分析中非常重要的一种工具,能够帮助识别数据中的异常点,进而提高数据分析的准确性。
发表评论
最新留言
逛到本站,mark一下
[***.202.152.39]2025年04月09日 11时43分42秒
关于作者

喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
PyQt5之音乐播放器
2019-03-06
Redis进阶实践之十八 使用管道模式提高Redis查询的速度
2019-03-06
SQL注入
2019-03-06
#2036:改革春风吹满地
2019-03-06
MPI Maelstrom POJ - 1502 ⭐⭐ 【Dijkstra裸题】
2019-03-06
P1379 八数码难题 ( A* 算法 与 IDA_star 算法)
2019-03-06
算法学习笔记: 珂朵莉树
2019-03-06
Codeforces Round #664 题解(A ~ C)
2019-03-06
Problem A - Sequence with Digits (数学推导)
2019-03-06
Problem 330A - Cakeminator (思维)
2019-03-06
LeetCode75 颜色分类 (三路快排C++实现与应用)
2019-03-06
docker基础:容器生命周期管理命令
2019-03-06
C#开发BIMFACE系列35 服务端API之模型对比6:获取模型构建对比分类树
2019-03-06
C# 规范建议
2019-03-06
C语言+easyX图形库的推箱子实现
2019-03-06
反汇编-流程控制语句-2-循环控制语句分析
2019-03-06
调试vs2019代码的流程
2019-03-06
游戏外挂基础-概述
2019-03-06
脱壳与加壳-加壳-6-代码实现加密导入表
2019-03-06