第七章(3) 关联分析:非频繁模式
发布日期:2022-02-06 02:22:00 浏览次数:29 分类:技术文章

本文共 1716 字,大约阅读时间需要 5 分钟。

  1. 非频繁模式是支持度<阈值的项集或规则
  2. 非频繁模式的应用:
    1. 利用数据中的负相关元素,有助于识别竞争项,找到某种商品的替代项
    2. 某些非频繁模式暗示了数据中出现了罕见的现象
  3. 挖掘非频繁模式的问题:
    1. 如何识别有用的非频繁模式
    2. 如何有效的在大型数据中发现它们
  4. 负模式:
    1. 负项集:有如下的性质:
      1. 负项集X=AU非B,其中A是正项的集合,非B是负项的集合,且至少有1个负项
      2. X的支持度>=minsup
    2. 负关联规则:有如下的性质:
      1. 规则时从负项集提取出来的
      2. 规则的支持度>=minsup
      3. 规则的置信度>=minconf
    3. 负项集和负关联统称为负模式
  5. 负相关模式:
    1. 负相关项集:s(AB)/s(A)*s(B)<1,则为负相关;如果项集的支持度<使用统计独立性假设计算出的其中各项的期望支持度,那么项集内的项是负相关的;s(X)越小,模式越负相关
    2. 负相关关联规则:s(XUY)<s(X)s(Y),其中X和Y是不相交的项集(关联规则本来前后件就是不相交的),那么关联规则X->Y是负相关的;但是X和Y中的项一般是正相关的,所以用部分条件(即上式)来定义负相关关联规则
    3. 负相关项集和负相关关联规则统称为负相关模式
    4. 其实负项集可以看做项集(都为非对称二元变量)中的0和1相反的项集
  6. 非频繁模式、负模式、负相关模式比较:非频繁模式和负相关模式只涉及包含正项的项集或模式,而负模式涉及包含正项和负项的项集或模式;
    1. *负模式的“负”代表项的不存在情况的记录,负相关模式的的“负”即消极的相关联系,这两个“负”有不同的含义
    2. 非频繁模式有对应的负模式,很多负相关模式也具有对应的负模式(XU非Y或非XUY),而且当负相关出现时,则XU非Y或非XUY或者这两者必然具有相对较高的支持度
    3. 当XUY的支持度越低,模式就越负相关,因此非频繁模式的负相关模式就是让人感兴趣的
    4. 总结:非频繁模式->可能有负相关模式->负相关模式的负模式>minsup
  7. 挖掘有趣的非频繁模式的技术:非频繁模式的数量可能很大,所以其方法着力于仅发现有趣的非频繁模式,比如负相关模式,通过负相关项集的公式;或者是非频繁项集的支持度,而相关性度量不具有反单调性;下面是两种方法:
    1. 基于挖掘负模式的技术:将每个项看作是对称的二元变量,然后在事务数据集中加入负项,对增广的事务使用Apriori算法,推导出所有的负项集;问题是:仅当只有少数变量是对称的二元变量(其他的还是非对称的),该方法才可行,因为如果每个项都是对称的,那么:
      1. 项个数加倍,待探查的项集就很大
      2. 支持度剪枝不再有效(每个项的正方两面的支持度的和=1),这样项集都是频繁的
      3. 事务的宽度增加,指数地增加频繁项集的数量
    2. 还有一种计算方法:根据对应的正项集计算负项集的支持度
    3. 还有算法的优化策略:
      1. 限制被视为对称二元变量的变量数,仅当某个项频繁时才认为其负项是有趣的
      2. 限制负模式的类型(至少要包含一些正项)
    4. 基于支持度期望的技术:仅当非频繁模式的支持度显著<期望支持度时,才是有趣的,而对于负相关模式,期望支持度根据统计独立性假设计算;两种计算期望支持度的方法:
      1. 基于概念分层的支持度期望:需要确定期望支持度的主观方法,避免产生毫无关联的非频繁模式;购物篮事务中,对于两个完全不同的产品类,两者一同出现的情况当然很少;预期来自同一类产品的项与其他项有类似的相互作用;如果实际支持度<<期望支持度,那么是有趣的非频繁模式
      2. 基于间接关联的支持度期望:通过考察与两个项同时出现的其他项来确定两个项之间的期望支持度;即使不使用概念分层,相关的项的期望支持度应该很高,而实际支持度低的话,那么两个项的模式就是有趣的
        1. 间接关联:xy间接关联的话,这两个项集的支持度<minsup,但他们各自和中介集的支持度>=minsup且各自与中介集有相关性;应用的例子很多,如竞争产品各自都有相似的关联产品;还有文本的上下文联系;间接关联产生的方法:
          1. 用Apriori或FP树产生频繁项集
          2. 合并每对频繁k-项集得到候选间接关联(a,b,Y)
          3. 产生候选后,用定义验证项对支持度和中介依赖条件(中介支持度因为是频繁项集合并的,前提就成立了)
          4. 有趣的间接关联为低支持度的项对和中介集

 

转载地址:https://blog.csdn.net/u013103305/article/details/83317807 如侵犯您的版权,请留言回复原文章的地址,我们会给您删除此文章,给您带来不便请您谅解!

上一篇:第七章(2) 关联分析:子图模式
下一篇:第三章 探索数据

发表评论

最新留言

表示我来过!
[***.240.166.169]2024年04月25日 09时48分45秒