
本文共 769 字,大约阅读时间需要 2 分钟。
自然划分的3-4-5规则常被用来将数值数据(连续型数据)划分为相对一致、更自然的区间, 规则的划分步骤:
(1) 如果一个区间最高有效位上包含3,6,7或9个 不同的值,就将该区间划分为3个等宽子区间; (为7的话,划分成 2,3,2的宽度比例) ;
(2) 如果一个区间最高有效位上包含2,4,或8个不 同的值,就将该区间划分为4个等宽子区间;
(3) 如果一个区间最高有效位上包含1,5,或10个不同的值,就将该区间划分为5个等宽子区间;
将该规则递归的应用于每个子区间,产生给定数值属性的概念分层
对于数据集中出现的最大值和最小值的极端分布,为了避免上述方法出现的结果扭曲,可以在顶层分段时,选用一个大部分的概率空间。 如 选择5%-95%的数据,再进行以上规则的划分。
实例1:如某公司的销售增量在 -180~383之间,采用该规则进行划分如下,首先取定一个整的左闭右开的区间
向下取整-180 是 -200 ,向上取整383是400
[-200,400)。最高位是百分位,最高有效位有-2、-1、1、2、3,4一共6个,分成3个等宽区间 (注意0的情况)
a1 [-200,0) a2 [0,200) a3[200,400)
再划分每个区间的最高有效位是2个,子区间划分4个
a1 [-200,0) a2 [0,200) a3[200,400)
a11[-200,-150) a21[0,50) a31[200,250)
a12[-150,-100) a22[50,100) a32[250,300)
a13[-100,-50) a23[100,150) a33[300,350)
a14[-50,0) a24[150,200) a34[350,400)
a14[-50,0) a24[150,200) a34[350,400)
发表评论
最新留言
关于作者
