玩命加载中 . . .

数据挖掘复习(二)关联规则挖掘 – Apriori算法


关联规则挖掘 – Apriori算法

Apriori算法介绍

Apriori算法的原理

通过限制候选产生发现频发项集由频繁项集产生关联规则

Apriori算法的重要性质

性质1:频繁项集的子集必为频繁项集如果{B,C}是频繁的,那么{B},{C}也一定是频繁的

性质2:非频繁项集的超集一定是非频繁的。如果{A, B}是非频繁的,那么{A, B, C},{A, B, C, D}也一定是频繁的

使用Apriori算法发现频繁项集

扫描数据集,得到所有出现过的数据,作为候选1项集挖掘频繁k项集扫描计算候选k项集的支持度剪枝去掉候选k项集中支持度低于最小支持度α的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。基于频繁k项集,链接生成候选k+1项集利用步骤2,迭代得到k=k+1项集结果

由频繁项集产生关联规则

产生关规则的过程如下:对于每个频繁项集I,产生I的所有非空子集对于I的每个非空子集s,如果support(l)/support(s) ≥min_conf,则输出规则“s(l-s)”。其中,min_conf是最小置信度阈值。

img

image-20201229143426957


文章作者: Angus Lan
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Angus Lan !
评论
  目录