从大规模的数据集中寻找隐含关系被称作为关联分析(association analysis)或者关联规则学习(association rule learning)。
Apriori算法
优点:易编码实现
缺点:在大数据集上可能较慢
使用数据类型:数值型或者标称型数据
关联分析寻找的是隐含关系,这些关系可以有两种形式:频繁项集或者关联规则。
频繁项集(frequent item sets)是经常出现在一起的集合
关联规则(association rule)暗示两种物品之间可能存在很强的关系
项集的支持度和可信度(置信度)
data:image/s3,"s3://crabby-images/b6b17/b6b179b2a60a73d66710e251bebdfed775ce3db4" alt=""
Apriori算法的原理是如果某个项集是频繁的,那么它的所有子集也是频繁的;如果一个项集是非频繁的,那么它的所有超集也是非频繁的。
data:image/s3,"s3://crabby-images/c6d8f/c6d8f63d36719e1e46497122596f6951e5b67040" alt=""