Apriori算法详解之【二、伪代码和例子】 Apriori算法详解之【一、相关概念和核心步骤】

现在的位置: 首页 > 综合 > 正文

Apriori算法详解之【二、伪代码和例子】 Apriori算法详解之【一、相关概念和核心步骤】

2013年09月11日 ⁄ 综合 ⁄ 共 1272字 ⁄ 字号小中大 ⁄ 评论关闭

上一篇文章中对Apriori算法进行了简单的描述（Apriori算法详解之【一、相关概念和核心步骤】http://blog.csdn.net/lizhengnanhua/article/details/9061755），现在用伪代码实现，及对经典例子进行描述（红兰PPT上之摘抄）。

一、Apriori算法伪代码实现：

伪代码描述：
 // 找出频繁 1 项集
     L1 =find_frequent_1-itemsets(D); 
     For(k=2;Lk-1 !=null;k++){
// 产生候选，并剪枝
        Ck =apriori_gen(Lk-1 ); 
// 扫描 D 进行候选计数
        For each 事务t  in D{ 
            Ct =subset(Ck,t); // 得到 t 的子集
            For each 候选 c 属于 Ct
                c.count++;
        }
		//返回候选项集中不小于最小支持度的项集
        Lk ={c 属于 Ck | c.count>=min_sup}
}
Return L= 所有的频繁集；
第一步：连接（join）
Procedure apriori_gen (Lk-1 :frequent(k-1)-itemsets)
      For each 项集 l1 属于 Lk-1
         For each 项集 l2 属于 Lk-1
            If( (l1 [1]=l2 [1])&&( l1 [2]=l2 [2])&& ……&& (l1 [k-2]=l2 [k-2])&&(l1 [k-1]<l2 [k-1]) ) 
then{
                    c = l1 连接 l2    // 连接步：产生候选
				  //若k-1项集中已经存在子集c则进行剪枝
                   if has_infrequent_subset(c, Lk-1 ) then
                       delete c; // 剪枝步：删除非频繁候选
                   else add c to Ck;
                   }
          Return Ck;
第二步：剪枝（prune） 
 Procedure has_infrequent_sub (c:candidate k-itemset; Lk-1 :frequent(k-1)-itemsets)
         For each (k-1)-subset s of c
            If s 不属于 Lk-1 then
               Return true;
        Return false;

二Apriori算法例子：