一、背景
为什么会学习FP-growth算法?起因是在工作中有两个场景想知道哪些组合比较频繁,分析频繁出现的原因,并以此分类给用户贴上标签或根据频繁组合场景发现是否有必要增改场景。以往一般是直接SQL跑出不同组合的频次分布,但遗憾的是长尾非常多,眼看着某几个组合出现频次很大,但Excel处理就得穷举出所有组合再去汇总,特别麻烦。
于是在《机器学习实战》一书中找到了这个算法,称为是“频繁模式挖掘”的一种算法。经过一周断断续续的学习,由于算法实现过程由不同的人写出来有不同的组织逻辑,不同水平的人并不能一下子完整接受,所以期间也经过反复的推敲和调试,甚至专门搜该算法以期获取不同角度的讲解,最终终于算是有些理解。
理解完算法后发现,终于知道为啥后期卡在不理解所谓的输出结果上了。有一篇文章的话点醒了我,
事实上,这个算法做的事情是将大于给定支持度的所有组合给你列出来了,在元素项比较少的情况下,完全可以通过穷举所有元素项组合
在实践中,关联规则挖掘可能并不像人们期望的那么有用。一方面是因为支持度置信度框架会产生过多的规则,并不是每一个规则都是有用的。另一方面大部分的关联规则并不像“啤酒与尿布”这种经典故事这么普遍。关联规则分析是需要技巧的,有时需要用更严格的统计学知识来控制规则的增殖。
原文地址:https://www.cnblogs.com/everda/p/10874806.html
时间: 2024-10-31 01:09:04