第六章(3) 关联分析:关联模式评估(客观度量)
发布日期:2022-02-06 02:21:59
浏览次数:28
分类:技术文章
本文共 1503 字,大约阅读时间需要 5 分钟。
- 关联分析会产生大量的模式,建立一组广泛接受的评价关联模式质量的标准是很重要的;分为两种:
- 通过统计论据建立:相互独立的项的模式或者覆盖少量事务的模式可能是伪联系;使用客观兴趣度度量:支持度、置信度、相关性
- 通过主观论据建立:模式被主观的判断,希望模式是提供有利信息的或者预料不到的,这需要来自领域专家的大量先验信息;主观信息加入到模式发现:
- 可视化
- 基于模板的方法
- 主观兴趣度度量
- 客观兴趣度度量:
- 支持度的缺点:许多潜在的有意义的模式,因为包含支持度小的项而被去除;置信度的缺点:忽略了规则后件中项集的支持度(包括部分的相关性的问题)
- 提升度=规则置信度/规则后件中项集的支持度;兴趣因子:对变量之间的独立性的度量;局限性:变量间的相互独立程度可能受其在总体中的占比的影响,有部分时候会得出相反的结论
- 相关分析:二元变量的皮尔逊相关系数;局限性:相关系数把项在事务中同时出现和同时不出现视为同等重要,更适合分析对称的二元变量,且当样本大小成比例变化时,系数不能够保持不变
- IS度量:非对称二元变量
- 分析二元变量之间联系的度量可以分为两类:对称和非对称,这是对度量而言,是对规则因果颠倒后的对比;对称度量用来评价项集,非对称度量用于分析关联规则
- 客观度量的一致性
- 客观度量的性质:
- 反演性:反演即两个对象反转位向量的过程;如果交换频度计数f11和f00、f10和f01M的值不变,则称客观度量M在反演操作下是不变的;对于非对称的二元数据,使用非反演不变的度量更可取
- 零加性:零加即向数据集添加不相关数据的过程;如果增加f00而保持相依表中所有其他的频度不变而不影响M的值,则称客观度量M在零加操作下是不变的;文档分析或购物篮分析的期望度量在零加分析下应该是不变的
- 缩放不变性:如果M(T)=M(T‘),客观度量在行或列缩放下是不变的;只有几率α是有缩放不变性的
- 多个二元变量的度量:有一种方法是将客观度量定义为模式中项对之间关联的max、min或平均值;然而该方法只关注逐对之间的关联,可能不能发现模式中的联系;而数据中存在部分关联,多维相依表的分析更加复杂,根据特定变量的值,某些关联可能出现或不出现,这就是辛普森悖论
- 辛普森悖论:在某些情况下,隐藏的变量可能会导致观察到的一对变量之间的联系出现不一样的结果(即没有对条件考虑全面);数据需要适当的分层,考虑到更现实的条件才能得到正确的结论
- 倾斜支持度分布的影响:
- 倾斜支持度分布:但大多数项具有低频率,少数项具有很高的频率
- 规则也是对项的一种相关关系的度量
- 交叉支持模式:高频项和低频项相关联的虚假模式,其间的相关关系很小,但是支持度阈值的降低使其模式被挖掘;
- 支持度阈值提高导致部分强关联的规则无法出现;置信度很难区别从是否为交叉支持模式中提取的规则
- 解决办法是可以通过检查由给定项集提取的最低置信度规则来检测交叉支持模式:
- 置信度的反单调性(定理:如果规则X->(Y-X)不满足置信度阈值,则X'->(Y-X')也不满足,X'是X的子集),频繁项集提取的最低置信度规则的左边只有一个项
- 给定一个频繁项集,最大支持度的单个项,将其放在规则左边,这便是最小置信度规则
- 总结:h置信度或全置信度=频繁项集的支持度/最大支持度的单个项的支持度,即频繁项集的最低置信度;所以确保模式的h置信度>用户指定阈值hc就可以消除交叉支持模式(即项集中单个项的支持度和总体支持度差距不大,解决高低频项相关联的虚假模式);而h置信度也是反单调的,可以直接并入挖掘算法(反单调的支持度的频繁项集挖掘);h置信度越大也越能保证项集之间的项是强关联的,这种强关联模式即超团模式
转载地址:https://blog.csdn.net/u013103305/article/details/83317800 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!
发表评论
最新留言
网站不错 人气很旺了 加油
[***.192.178.218]2024年04月22日 17时33分41秒
关于作者
喝酒易醉,品茶养心,人生如梦,品茶悟道,何以解忧?唯有杜康!
-- 愿君每日到此一游!
推荐文章
智能体 Intelligent Agent
2019-04-30
Network Compression网络压缩(一)
2019-04-30
GAN系列(零)—— GAN的发展(两条路线)
2019-04-30
Conditional GAN (CGAN) 条件生成网络
2019-04-30
强化学习(三) —— Policy Gradient 策略梯度
2019-04-30
docker安装oracle(win10)
2019-04-30
Cloudera Quickstart & HUE
2019-04-30
HUE
2019-04-30
CDH
2019-04-30
行为树 BT
2019-04-30
Cassandra & CQL
2019-04-30
Oracle数据库
2019-04-30
Oracle数据库命令
2019-04-30
plsql
2019-04-30
有限状态机FSM
2019-04-30
Win10 Docker
2019-04-30
Python绘制动画并保存为gif/mp4 (matplotlib)
2019-04-30
PRM概率路线图
2019-04-30
ROS(六)——订阅者Subscriber的编程实现(C++ & Python)
2019-04-30
ROS(七)——话题消息的定义与使用
2019-04-30