(6.3.1)--6.3FP-growth算法.pdf-淘文阁

资源描述

《(6.3.1)--6.3FP-growth算法.pdf》由会员分享，可在线阅读，更多相关《(6.3.1)--6.3FP-growth算法.pdf（13页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Chapter 6.3FP-growth算法286.3 FP-growth算法Apriori算法的优缺点优点算法原理简单，易于理解。缺点：需要多次扫描数据集如果频繁项集最多包含10个项，需要扫描事务数据集10次，这需要很大的I/O负载产生大量频繁项集如数据集有100项，可能产生的候选项个数为1.27*1030296.3 FP-growth算法频繁模式增长(frequent-pattern growth FP-Growth)将提供频繁项集的数据库压缩到FP-树，但仍保持项集关联信息;压缩后的数据库分成一组条件数据库，每个数据库关联一个频繁项，并分别挖掘每个条件数据库;f:4c:1b:1

2、p:1b:1c:3a:3b:1m:2p:2m:1Header TableItem frequency head f4c4a3b3m3p330FP-growth算法实现步骤第一次扫描事务数据集D，确定每个1项集的支持度计数，将频繁1项集按照支持度计数降序排序，得到排序后的频繁1项集集合L。第二次扫描事务数据集D，读出每个事务并构建根结点为null的FP-tree。i.创建FP-tree的根结点，用null标记；ii.将事务数据集D中的每个事务中的集，删除非频繁项，将频繁项按照L中的顺序重新排列事务中项的顺序，并对每个事务创建一个分支；iii.当为一个事务考虑增加分支时，沿共同前缀上的每个结点的计

3、数加1，为跟随前缀后的项创建结点并连接；iv.创建一个项头表，以方便遍历，每个项通过一个结点链指向它在树中的出现。6.3 FP-growth算法31FP-growth算法实现步骤从1项集的频繁项集中支持度最低的项开始，从项头表的结点链头指针，沿循每个频繁项的链接来遍历FP-tree，找出该频繁项的所有前缀路径，构造该频繁项的条件模式基，并计算这些条件模式基中每一项的支持度；通过条件模式基构造条件FP-tree，删除其中支持度低于最小支持度阈值的部分，满足最小支持度阈值的部分则是频繁项集；递归地挖掘每个条件FP-tree，直到找到FP-tree为空或者FP-tree只有一条路径，该路径上的所有项

4、的组合都是频繁项集。6.3 FP-growth算法测试数据集32TIDItems1面包、可乐、麦片2牛奶、可乐3牛奶、面包、麦片4牛奶、可乐5面包、鸡蛋、麦片6牛奶、面包、可乐7牛奶、面包、鸡蛋、麦片8牛奶、面包、可乐9面包、可乐6.3 FP-growth算法例6.8 FP-growth算法该数据集具有9个事务，设最小支持度为2，频繁项集的极大长度为3。试使用FP-growth算法挖掘表6-2的事务数据中的频繁项集。336.3 FP-growth算法null面包面包：7 7牛奶牛奶：2 2牛奶牛奶：4 4可乐可乐：2 2麦片麦片：2 2可乐可乐：2 2鸡蛋鸡蛋：1 1麦片麦片：1 1鸡蛋鸡蛋：

5、1 1可乐可乐：2 2麦片麦片：1 1项集支持度计数结点链头指针面包7牛奶6可乐6麦片4鸡蛋2图6-11 FP-tree34对于项集鸡蛋，开始向上找出所有前缀路径，找出其中的频繁模式：面包，鸡蛋：2面包，麦片，鸡蛋：2面包，麦片，鸡蛋：2NULL项集支持度记数面包7牛奶6可乐6麦片4鸡蛋2面包面包：7牛奶牛奶：2牛奶牛奶：4可乐可乐：2麦片麦片：2 可乐可乐：2鸡蛋鸡蛋：1麦片麦片：1鸡蛋鸡蛋：1可乐可乐：2麦片麦片：16.3 FP-growth算法null面包：2 2麦片：2 2图6-12 鸡蛋的条件FP-tree35对于项集麦片，开始向上找出所有前缀路径，找出其中的频繁模式：面包，麦片

6、：4牛奶，麦片：2面包，牛奶，麦片：2NULL项集支持度记数面包7牛奶6可乐6麦片4鸡蛋2面包面包：7牛奶牛奶：2牛奶牛奶：4可乐可乐：2麦片麦片：2 可乐可乐：2鸡蛋鸡蛋：1麦片麦片：1鸡蛋鸡蛋：1可乐可乐：2麦片麦片：16.3 FP-growth算法36对于项集可乐，开始向上找出所有前缀路径，找出其中的频繁模式：面包，可乐：4牛奶，可乐：4面包，牛奶，可乐：2NULL项集支持度记数面包7牛奶6可乐6麦片4鸡蛋2面包面包：7牛奶牛奶：2牛奶牛奶：4可乐可乐：2麦片麦片：2 可乐可乐：2鸡蛋鸡蛋：1麦片麦片：1鸡蛋鸡蛋：1可乐可乐：2麦片麦片：16.3 FP-growth算法37对于项集牛奶，

7、开始向上找出所有前缀路径，找出其中的频繁模式：面包，牛奶：4NULL项集支持度记数面包7牛奶6可乐6麦片4鸡蛋2面包面包：7牛奶牛奶：2牛奶牛奶：4可乐可乐：2麦片麦片：2 可乐可乐：2鸡蛋鸡蛋：1麦片麦片：1鸡蛋鸡蛋：1可乐可乐：2麦片麦片：16.3 FP-growth算法386.3 FP-growth算法null面包：2 2麦片：2 2图6-12 鸡蛋的条件FP-tree表6-5 FP-tree 挖掘过程项集项集条件模式基条件模式基条件条件FP-tree频繁模式频繁模式鸡蛋鸡蛋面包，牛奶，麦片：1，面包，麦片：1面包，鸡蛋：2，麦片，鸡蛋：2，面包，麦片，鸡蛋：2麦片麦片面包，可乐：1，面包，牛奶：2，面包：1 面包，麦片：4，牛奶，麦片：2，面包，牛奶，麦片：2可乐可乐面包：2，面包，牛奶：2，牛奶：2，面包，可乐：4，牛奶，可乐：4，面包，牛奶，可乐：2牛奶牛奶面包：4面包，牛奶：439 性能研究表明 FP-树比Apriori算法快一个数量级原因减少没有候选集的产生，没有候选测试使用简洁的数据结构除去了重复的数据库扫描6.3 FP-growth算法

展开阅读全文