箱线图的理解
发布日期:2021-05-06 21:46:45 浏览次数:40 分类:精选文章

本文共 1722 字,大约阅读时间需要 5 分钟。

箱线图概念

箱形图(Box-plot),又称盒须图、盒式图,是一种用来展示数据分散情况的统计图。它能够清晰地反映数据的中位数、四分位数范围以及异常值的位置。箱线图不仅可以直观地展示数据的分布趋势,还能帮助识别数据中的异常值或潜在问题。

箱线图的计算过程

  • 计算上四分位数(Q3),中位数,下四分位数(Q1)

    • Q1是将数据分为四个等分后的前一个四分位数。
    • Q2是中位数,位于数据的中间位置。
    • Q3是上四分位数,是数据的后三个四分位数之一。
  • 计算四分位数差(IQR)

    IQR = Q3 - Q1
    IQR反映了数据的分散程度,值越大说明数据分布越广。

  • 确定箱线图范围

    • 箱子的上限为Q3,下限为Q1。
    • 箱子内部的中位数位置绘制横线,表示数据的中心位置。
  • 识别异常值

    • 异常值是指远离其他数据的点。通常,异常值的定义是:
      • 大于 Q3 + 1.5 × IQR 或小于 Q1 - 1.5 × IQR 的值。
    • 极端异常值(超出3 × IQR范围的值)用实心点表示,较温和的异常值(处于1.5 × IQR - 3 × IQR之间的值)用空心点表示。
  • 绘制触须

    • 在异常值之外的两个最靠近箱线的数据点处绘制横线,作为箱线图的触须。
  • 添加名称和数轴

    最后,需要在箱线图中添加适当的标题和数轴,以便更好地理解图表。


  • 四分位数的计算

    分位数是将数据按照一定规则分成若干等分的统计方法。四分位数作为分位数的一种形式,具有重要的意义和应用。由于大多数统计学教材对其具体计算缺乏详细介绍,尤其是如何根据分组数据计算四分位数,这是一个值得深入探讨的课题。

    根据未分组数据计算四分位数

  • 确定四分位数的位置

    对于一个包含n个数据的数据集,四分位数的位置可以通过以下公式计算:

    • 下四分位数(Q1)的位置:(n + 1) / 4
    • 中位数(Q2)的位置:(n + 1) / 2
    • 上四分位数(Q3)的位置:3 × (n + 1) / 4

    这些位置可能会出现小数,因此需要根据实际情况进行调整。例如,如果位置的小数部分较大,则取相邻两个整数的平均值作为四分位数的位置。

  • 根据实际数据计算四分位数

    以某车间某月份工人生产某产品的数量为例,数据为:13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤。

    • Q1的位置为:(11 + 1) / 4 = 3
    • Q2的位置为:(11 + 1) / 2 = 6
    • Q3的位置为:3 × (11 + 1) / 4 = 9

    因此,Q1、Q2、Q3分别为数据集的第3个、第6个和第9个值,即13.8公斤、14.6公斤和15.2公斤。

  • 处理非整数位置的情况

    如果(n + 1)不是4的整数倍,位置会出现小数。此时,四分位数的位置需要根据实际数据的分布情况进行插值计算。例如,某数据集的n = 10,则Q1的位置为2.75,Q2的位置为5.5,Q3的位置为8.25。

    • Q1的位置为2.75,表示第2.75个数据点,通常取第3个数据点的值(13.8公斤)。
    • Q2的位置为5.5,表示第5.5个数据点,通常取第5和第6个数据点的平均值(14.3公斤)。
    • Q3的位置为8.25,表示第8.25个数据点,通常取第9个数据点的值(15.2公斤)。

  • 绘制箱线图

    箱线图的绘制过程可以分为以下几个关键步骤:

  • 确定数据范围和四分位数

    • 根据数据计算出Q1、Q2和Q3。
    • 确定箱线图的上限(Q3)和下限(Q1)。
  • 绘制箱子

    • 在图上绘制一个矩形的箱子,箱子的底部和顶部分别用短横线表示。
    • 箱子的中间位置绘制一条横线,表示中位数的位置。
  • 绘制触须

    • 在异常值之外的两个最靠近箱线的数据点处绘制短横线,作为箱线图的触须。
  • 标注异常值

    • 极端异常值(超出3 × IQR范围的值)用实心点表示。
    • 较为温和的异常值(位于1.5 × IQR - 3 × IQR范围内的值)用空心点表示。
  • 添加数轴和标题

    • 在箱线图中添加数轴,便于读者理解数据的分布。
    • 为图表添加适当的标题和标签,确保图表的信息完整性。
  • 通过以上步骤,可以清晰地绘制出箱线图,并从中提取数据的分布特征和异常值信息。这是数据分析中非常重要的一种工具,能够帮助识别数据中的异常点,进而提高数据分析的准确性。

    上一篇:通过scatter图寻找噪音
    下一篇:损失函数中使用log的作用

    发表评论

    最新留言

    逛到本站,mark一下
    [***.202.152.39]2025年04月09日 11时43分42秒