现在的位置: 首页 > 综合 > 正文

数据挖掘系列之三:频繁模式、关联和相关

2018年02月17日 ⁄ 综合 ⁄ 共 2092字 ⁄ 字号 评论关闭
文章目录

1.频繁项集

1.1理解基本概念

项集的出现频率:包含项集的事务数。也称作频率、支持度计数、计数。记作support_count。

某项集I的支持度:包含I的事务数/总事务数;

置信度:用于产生强关联规则,参见第2节。对于I的某个子集I',support_count(I)/support_count(I')即为置信度的定义。

只要得到A,B和A交B的支持度计数,就可以导出对应的关联规则A=>B和B=>A,并检查它们是否是强规则。如此,挖掘关联规则的问题就可以归结为挖掘频繁项集。

一般地,关联规则的挖掘可以看做两步的过程:

1)找出所有的频繁项集:满足最小支持度min_sup;

2)由频繁项集产生强关联规则:同时满足min_sup和最小置信度min_conf;

通常,上述A交B写作A并B,可作如下两种理解:

1)若写作A并B,则其并非概率论中的随机事件,A并B仅看做A中项集和B中项集的并集,P(A并B)即包含A中项集同时包含B中项集的事务数(所占比例)。

2)若写作A交B,则可与概率中随机事件相似理解,A为事件:全集中含有A中项集的事务,B:全集中含有B中项集的事务,则A交B:全集中含有A且含有B的事务。

闭频繁项集:若不存在项集X的真超项集Y使得Y与X在数据集S中有相同的支持度计数,则称X在S中是闭的。若X在S中是闭的和频繁的,则项集X是数据集S中的闭频繁项集。

极大频繁项集(极大项集):若X是频繁的,且不存在超项集Y也是频繁的

注意:闭的未必是频繁的,但极大项集必定是频繁的。闭频繁项集也不等同于极大项集:区别的关键就是闭频繁项集要求不存在相同的支持度计数的超集,而极大项集要求不存在频繁的超集。频繁的超集中支持度计数可能不同,因为频繁与否由最小支持度决定,它决定了一个计数范围,而不是指定了一个唯一的计数值。

1.2 频繁模式挖掘分类

1.2.1 根据挖掘的模式的完全性分类

频繁项集的完全集:

闭频繁项集:

极大频繁项集:

被约束的频繁项集:即满足用户指定的一组约束的频繁项集

近似的频繁项集:即只推导被挖掘的频繁项集的祭祀支持度计数

接近匹配的频繁项集:即与接近或几乎匹配的项集的支持度计数相符合的项集

最频繁的k个项集:即对于用户指定的k,k个最频繁的项集

1.2.2 根据规则集所涉及的抽象层分类

多层关联规则(multilevel association rule)

单层关联规则(single-level association rule):在给定的规则集中,规则不涉及不同抽象层的项或属性

1.2.3 根据规则中涉及的数据维数分类

单维关联规则(single-dimensional association rule):关联规则中的项或属性只涉及一个维。按照多维数据库的术语,规则中的每个不同谓词称作维。如仅涉及维buys,buys(X, “电脑”)=>buys(X, “打印机”)。

多维关联规则:规则涉及两个或多个维,如涉及age,income和buys,age(X, "30到39")∧income(X, "42K到48K")=>buys(X, "电视")。

1.2.4 根据规则中所处理的值类型

布尔关联规则(Boolean association rule):规则考虑的关联为项是否出现

量化关联规则(quantitative association rule):规则描述量化的项或属性之间的关联。在这种规则中,项或属性的量化值划分为区间。

1.2.5 根据所挖掘的规则类型分类

频繁模式分析可以产生各种类型的规则和其他有趣的联系。

关联规则:

相关规则(correlation rule):对发现的关联进一步进行分析,发现统计相关

强梯度联系(strong gradient relationship):梯度是项集与它的父母(泛化的项集)、子女(特殊化的项集)或兄妹(可比较的项集)相比之下的度量比率。

1.2.6 根据所挖掘的模式类型分类

频繁项集挖掘:从事务或关系数据集挖掘频繁项集(项的集合)

序列模式挖掘:从序列数据集中搜索频繁子序列,其中序列记录了事件的次序。

结构模式挖掘:在结构化数据集中搜索频繁子结构。结构模式挖掘可看作频繁模式挖掘的一般形式。

1.3 频繁项集挖掘方法(有效的、可伸缩的)

最简单形式的频繁模式:单维(一个谓词)、单层(涉及唯一抽象层)、布尔(所处理的值类型)频繁项集(所挖掘的模式类型)。

主要步骤

-连接步:可连接的是指仅最后一个元素不同
-剪枝步:采用Apriori性质和散列树
                 Apriori性质:项集X是频繁的<=>X的所有非空子集是频繁的<=>X的所有1项集是频繁的。
                 APriori性质属于反单调性(若一个集合不能通过测试,则它的所有超集也都不能通过相同的测试)
-数据集全扫描计数

伪代码

代码实现

例子

2.关联分析

此处讨论由频繁项集产生强关联规则的最简单形式(单维、单层、布尔)。
步骤
1)对于每个频繁项集l,产生l所有非空子集。
2)对于l的每个非空子集s,若support_count(l)/support_count(s) >= min_conf,则输出规则“s => (l-s)”。

3.相关分析

抱歉!评论已关闭.