关联规则挖掘 – Apriori算法
Apriori算法介绍
Apriori算法的原理
通过限制候选产生发现频发项集由频繁项集产生关联规则
Apriori算法的重要性质
性质1:频繁项集的子集必为频繁项集如果{B,C}是频繁的,那么{B},{C}也一定是频繁的
性质2:非频繁项集的超集一定是非频繁的。如果{A, B}是非频繁的,那么{A, B, C},{A, B, C, D}也一定是频繁的
使用Apriori算法发现频繁项集
扫描数据集,得到所有出现过的数据,作为候选1项集挖掘频繁k项集扫描计算候选k项集的支持度剪枝去掉候选k项集中支持度低于最小支持度α的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。基于频繁k项集,链接生成候选k+1项集利用步骤2,迭代得到k=k+1项集结果
由频繁项集产生关联规则
产生关规则的过程如下:对于每个频繁项集I,产生I的所有非空子集对于I的每个非空子集s,如果support(l)/support(s) ≥min_conf,则输出规则“s(l-s)”。其中,min_conf是最小置信度阈值。