自然划分的3-4-5规则
发布日期:2021-05-06 23:39:37 浏览次数:4 分类:技术文章

本文共 769 字,大约阅读时间需要 2 分钟。

自然划分的3-4-5规则常被用来将数值数据(连续型数据)划分为相对一致、更自然的区间, 规则的划分步骤:

(1) 如果一个区间最高有效位上包含3,6,7或9个 不同的值,就将该区间划分为3个等宽子区间; (为7的话,划分成 2,3,2的宽度比例) ;

(2) 如果一个区间最高有效位上包含2,4,或8个不 同的值,就将该区间划分为4个等宽子区间;

(3) 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;

将该规则递归的应用于每个子区间,产生给定数值属性的概念分层

对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。 如 选择5%-95%的数据,再进行以上规则的划分。

实例1:如某公司的销售增量在 -180~383之间,采用该规则进行划分如下,首先取定一个整的左闭右开的区间

向下取整-180 是 -200 ,向上取整383是400

[-200,400)。最高位是百分位,最高有效位有-2、-1、1、2、3,4一共6个,分成3个等宽区间 (注意0的情况)

a1 [-200,0)             a2 [0,200)              a3[200,400)

再划分每个区间的最高有效位是2个,子区间划分4个

a1 [-200,0)             a2 [0,200)              a3[200,400)

     a11[-200,-150)          a21[0,50)               a31[200,250)

      a12[-150,-100)          a22[50,100)            a32[250,300)

      a13[-100,-50)            a23[100,150)          a33[300,350)

      a14[-50,0)                  a24[150,200)          a34[350,400)

      

 a14[-50,0)                a24[150,200)          a34[350,400)

 

上一篇:Neo4j本地访问问题
下一篇:剑指offer Leetcode 28.对称的二叉树

发表评论

最新留言

做的很好,不错不错
[***.243.131.199]2025年03月12日 12时20分17秒