现在的位置: 首页 > 综合 > 正文

大数据:频繁项集

2014年10月02日 ⁄ 综合 ⁄ 共 1234字 ⁄ 字号 评论关闭
大数据:频繁项集 
下面是我

下面是阅读《大数据—互联网大规模数据挖掘与分布式处理》一书第六章笔记,详细请见该书所述。

1 购物篮数据:项与购物篮,多对多的关系。项存放于购物篮。

2 频繁项集:项集的支持度包含该项的所有购物篮数目

3 关联规则:若购物篮包含某项I,它很可能包含另一项J,J同属于包含I的购物篮的概率称为规则的可信度。规则兴趣度指可信度及包含j的所有购物篮比率的差值。

4 相对计数瓶颈:频繁项集的发现必须检查所有购物篮并统计某个规模的集合出现次数。频繁项集的发现通常会集中关注如何最小化项对计数所需的内存大小。

5 三角矩阵:不用矩阵(i,j)(j,i) ,而用i

6 项对计数的三元存储方法:若所有可能项对中,只有1/3的项对真正出现在购物篮中,采用三元组(i,j,c)的方式来存储项对计数值将更节省空间。c是项对计数值

7 频繁项集的单调性:如果某个项集是频繁的,那么所有子集都是频繁的。逆否形式可用于减少某些项集的计数,若某个项集非频繁集,那么其超集也是非频繁集。

8 面向项对的A-Priori算法:通过对购物篮的两遍扫描得到所有频繁项对。第一遍扫描,对项本身计数看哪些是频繁的,第二遍对第一遍的结果进行项对扫描。单调性理论证明忽略其他项对是合理的。

9 更大频繁项集的发现:基于A-Priori算法,多次扫描发现K大小的频繁项集。

10 PCY算法:通过第一遍扫描创建一张哈希表对A-Priori算法进行改进。哈希表使用项计数时不需要的所有内存空间来存储。项对被哈希处理,第二遍扫描中,只需对哈希到频繁桶的两个频繁项进行计数处理。

11 多阶段算法:可以在PCY的第一遍和第二遍之间插入额外的扫描过程,并在这些扫描过程中将项对哈希到另外的独立的哈希表中。在每个中间过程中,只需哈希那些在以往扫描中哈希到频繁桶的两个频繁项。

12 多哈希算法:对PCY算法的第一遍扫描进行修改,可将内存划分为多个哈希表,第二遍扫描只需对所有哈希表中都哈希到频繁桶的两个频繁项组成的项对进行计数。

13 随机化算法:可不对所有数据进行扫描,选择数据的随机样本数据进行处理,样本规模足够小,以至于样本数据足以放入内存。项集计数空间也足够。

14 SON算法:对简单随机化算法一个改进,将整个购物篮划分为多个小段,小到所有频繁项集都可在内存中发现。候选项集由至少在一个段上出现的频繁项集组成。第二遍扫描对候选集计数。适合map-reduce机制。

15 Toivonen算法:首先在抽样数据集上发现频繁项集,采用低支持度阈值保证数据集丢失率低。然后检查整个购物篮文件,对样本数据频繁集计数,并对反例边界项集计数,若反例上计数均为非频繁集,则结果确切。反之,需在新的样本数据上重复整个过程。

16 流中的频繁项集:使用衰减常数为c的衰减窗口,从购物篮看到某个项时开始计数,若看到某项集出现在当前购物篮中,并且所有真子集都已经计数,那么就开始该项集的计数过程。由于窗口不断衰减,我们将所有计数值乘以1-c并去掉那些计数值低于1/2的项集。

抱歉!评论已关闭.