《R语言关联分析模型报告案例附代码数据.docx》由会员分享,可在线阅读,更多相关《R语言关联分析模型报告案例附代码数据.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【原创】附代码数据 有问题到淘宝找“大数据部落”就可以了关联分析名目一、概括1二、数据清洗12.1 公立学费NPT4_PUB12.2 毕业率Graduation.rate12.3 贷款率GRAD_DEBT_MDN_SUPP22.4 归还率RPY_3YR_RT_SUPP22.5 毕业薪水MD_EARN_WNE_P10。 32.6 私立学费NPT4_PRIV32.7 入学率ADM_RATE_ALL4三、Apriori 算法43.1 相关概念53.2 算法流程63.3 优缺点7四、模型建立及结果84.1 公立模型84.2 私立模型11I【原创】附代码数据 有问题到淘宝找“大数据部落”就可以了一、概括
2、对 7703 条样本数据,分别依据公立学费和私立学费差异,建立公立模型和私立模型,进展关联分析。二、数据清洗2.1 公立学费NPT4_PUB此字段,存在 4 个负值,与实际状况不符,故将此四个值重定义为 NULL。重定义后,NULL 值的占比为 75%,占比很大,不能直接将 NULL 值删除或者进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 的值依据等比原则进展分组,分组结果如下:A:0,5896 B:(5896,7754 C:(7754, 9975D:(9975, 13819 E:(13819, +ABCDENULL3823813813813825796分组后取值分布为:2.
3、2 毕业率Graduation.rate将 PrivacySuppressed 值重定义为 NULL,重定义后,NULL 值的占比为 20%,占比较大,不适合直接删除或进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 值依据等比原则进展分组,分组结果如下:5A:0,0.29B:(0.29,0.47C:(0.47, 0.61D:(0.61, 0.75E:(0.75, +分组后取值分布为:A 1255B 1237C 1190D 1286E 1219NULL 15162.3 贷款率GRAD_DEBT_MDN_SUPP将 PrivacySuppressed 值重定义为 NULL,重定义后
4、,NULL 值的占比为 20%,占比较大,不适合直接删除或进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 的值依据等比原则进展分组,分组结果如下:A:0,9500 B:(9500,12000 C:(12000,19197 D:(19197, 25537 E:(25537, +ABCDENULL17028471127122512251577分组后取值分布为:2.4 归还率RPY_3YR_RT_SUPP将 PrivacySuppressed 值重定义为 NULL,重定义后,NULL 值的占比为 20%,占比较大,不适合直接删除或进展插补,故将 NULL 单独作为一个取值分组。对非
5、NULL 的值依据等比原则进展分组,分组结果如下:A:0,9500 B:(9500,12000 C:(12000,19197 D:(19197, 25537 E:(25537, +ABCDENULL17028471127122512251577分组后取值分布为:2.5 毕业薪水MD_EARN_WNE_P10。将 PrivacySuppressed 值重定义为 NULL,重定义后,NULL 值的占比为 19%,占比较大,不适合直接删除或进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 的值依据等比原则进展分组,分组结果如下:A:0,0.23B:(0.23,0.33C:(0.33,
6、0.45D:(0.45, 0.6E:(0.6, +ABCDENULL125512781240120712481475分组后取值分布为:2.6 私立学费NPT4_PRIV此字段,存在 1 个负值,与实际状况不符,故将此值重定义为 NULL。重定义后,NULL 值的占比为 40%,占比很大,不能直接将 NULL 值删除或者进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 的值依据等比原则进展分组,分组结果如下:A:0,12111 B:(12111,16409 C:(16409, 19805D:(19805, 23780 E:(23780, +ABCDENULL938937937937
7、9383016分组后取值分布为:2.7 入学率ADM_RATE_ALL数据中,NULL 值的占比为 69%,占比很大,不能直接将NULL 值删除或者进展插补,故将 NULL 单独作为一个取值分组。对非 NULL 的值依据等比原则进展分组,分组结果如下:A:0,0.52B:(0.52,0.66C:(0.66, 0.77D:(0.77, 0.85E:(0.85, +ABCDENULL4665074843256205301分组后取值分布为:三、Apriori 算法Apriori algorithm 是关联规章里一项根本算法。其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集,是由
8、Rakesh Agrawal 和Ramakrishnan Srikant 两位博士在 1994 年提出的关联规章挖掘算法。关联规章的目的就是在一个数据集中找出项与项之间的关系,也被称为购物蓝分析 (Market Basket analysis),“购物蓝分析”很贴切的表达了适用该算法情景中的一个子集。关于这个算法有一个格外知名的故事:“尿布和啤酒“。故事是这样的:美国的妇女们常常会叮嘱她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购置的时机很多。这个举措使尿布和啤酒的销量双双增加,并始终为众商家所津津乐道。3.1 相关概念用 R 语言进展关联
9、分析,涉及到的相关概念如下:资料库Transaction Database:存储着二维构造的记录集。定义为:D。全部项集Items:全部工程的集合。定义为:I。记录 Transaction :在资料库里的一笔记录。定义为:T,T D。项集Itemset:同时消灭的项的集合。定义为:k-itemsetk 项集,k 均表示项数。支持度support:定义为 supp(X) = occur(X) / count(D) = P(X)。P(A B)表示既有 A 又有 B 的概率。支持度是指在全部项集中X, Y消灭的可能性,即项集中同时含有 X 和 Y 的概率。该指标作为建立强关联规章的第一个门槛,衡量了
10、所考察关联规章在“量”上的多少。例如购物篮分析:牛奶面包,支持度 3%: 意味着 3%顾客同时购置牛奶和面包。置信度Confidence:定义为 conf(X-Y) = supp(X Y) / supp(X) = P(Y|X) 。 P(B|A),在 A 发生的大事中同时发生 B 的概率 p(AB)/P(A)。置信度表示在先决条件X 发生的条件下,关联结果Y 发生的概率。这是生成强关联规章的其次个门槛, 衡量了所考察的关联规章在“质”上的牢靠性。例如购物篮分析:牛奶面包, 置信度 40%:意味着购置牛奶的顾客 40%也购置面包。候选集Candidate itemset:通过向下合并得出的项集。定
11、义为 Ck。频繁 k 项集:假设大事 A 中包含 k 个元素,那么称这个大事 A 为 k 项集大事A 满足最小支持度阈值的大事称为频繁 k 项集。即支持度大于等于特定的最小支持度Minimum Support/minsup的项集,表示为 Lk。留意,频繁集的子集肯定是频繁集。强规章:同时满足最小支持度阈值和最小置信度阈值的规章称为强规章。即lift(X - Y) = lift(Y - X) = conf(X - Y)/supp(Y) = conf(Y - X)/supp(X) = P(X andY)/(P(X)P(Y)。提升度lift:提升度表示在含有 X 的条件下同时含有 Y 的可能性与没有
12、 X这个条件下项集中含有 Y 的可能性之比。该指标与置信度同样衡量规章的牢靠性, 可以看作是置信度的一种互补指标。有用的规章的提升度大于 1。3.2 算法流程为了提高频繁工程的挖掘效率,Apriori 算法利用了两个重要的性质,用于压缩搜寻的空间:1,假设 X 为频繁工程集,则 X 的全部子集都是频繁工程集。2,假设 X 为非频繁工程集,则 X 的全部超集均为非频繁工程集。Apriori 算法的处理流程为:宽度优先搜寻整个项集空间,从 k=0 开头,迭代产生长度为 k+1 的候选项集的集合 Ck+1。候选项集是其全部子集都是频繁项集的项集。C1 由 I0 中全部的项构成,在第k 层产生全部长度
13、为 k+1 的项集。这由两步完成:第一步,Fk 自连接。将 Fk 中具有一样(k-1)-前缀的项集连接成长度为 k 的候选项集。其次步是剪枝,假设项集的全部长度为 k 的子集都在 Fk 中,该项集才能作为候选项集被参加 Ck+1 中。为了计算全部长度为 k 的候选项集的支持度, 在数据库水平表示方式下,需要扫描数据库一遍。在每次扫描中,对数据库中的每条交易记录,为其中所包含的全部候选k-项集的支持度计数加 1。全部频繁的k-项集被参加 Fk 中。此过程直至 Ck+1 等于空集时完毕。简洁的讲,1 过程为:(1) 扫描;(2) 计数;(3) 比较;(4) 产生频繁项集;(5) 连接、剪枝,产生候
14、选项集;(6) 重复步骤15直到不能觉察更大的频集。图 3.2.1 为举例图示。3.3 优缺点图 3.2.1 Apriori 举例图示Apriori 算法的优点:Apriori 的关联规章是在频繁项集根底上产生的,进而这可以保证这些规章的支持度到达指定的水平,具有普遍性和令人信服的水平。Apriori 算法的缺点:需要屡次扫描数据库;生成大量备选项集;计数工作量太大。四、模型建立及结果4.1 公立模型此模型使用字段为:公立学费NPT4_PUB、毕业率Graduation.rate、贷款率GRAD_DEBT_MDN_SUPP、归还率RPY_3YR_RT_SUPP、毕业薪水MD_EARN_WNE_
15、P10,入学率ADM_RATE_ALL。由于 NULL 对实际状况无意义,因此除去取值中有 NULL 的样本,剩余样本数为 589。对剩余样本进展关联分析,模型性能参数如下:提升度越高,说明规章两边同时消灭比只消灭一个更为常见,大的提升度代表规章的重要性,并反映了不同状况间的真实联系,因此依据提升度,列出提升度排名前 6 条规章:由结果可知,高毕业率高毕业薪水,简洁有高归还率;归还率和入学率高时, 简洁消灭高的毕业薪水;假设毕业率高,即使贷款率较高时,也有很好的归还率。注 1:lhs 是关联规章的左侧,rhs 是关联规章的右侧。support,confidence,lift 三列分别是支持度,
16、信任度和提升度。注 2:关联规章及指标看法。以第一条规章为例,MD_EARN_WNE_P10=E,Graduation.rate=D与RPY_3YR_RT_SUPP=E同时发生的概率为0.1171477;在MD_EARN_WNE_P10=E,Graduation.rate=D的状况下,RPY_3YR_RT_SUPP=E 发生的概率为 0.9452055;有MD_EARN_WNE_P10=E,Graduation.rate=D条件下RPY_3YR_RT_SUPP=E发生的概率,是没有MD_EARN_WNE_P10=E,Graduation.rate=D此条件时,RPY_3YR_RT_SUPP=E
17、发生概率的 2.031847 倍。图 4.1.1 为规章的置信度,提升度,支持度散点图。图 4.1.2 中 supp 为 x 轴,conf 为 y 轴,颜色的深浅表示“order”,为规章里频繁项个数。图 4.1.3 为局部规章,项集有向图,大小表示 support,颜色表示 Lift。图 4.1.1 散点图图 4.1.2 频繁规章数图 4.1.3 项集有向图【原创】附代码数据4.2 私立模型有问题到淘宝找“大数据部落”就可以了5此模型使用字段为:私立学费NPT4_PRIV、毕业率Graduation.rate、贷款率GRAD_DEBT_MDN_SUPP、归还率RPY_3YR_RT_SUPP、
18、毕业薪水MD_EARN_WNE_P10,入学率ADM_RATE_ALL。由于 NULL 对实际状况无意义,因此除去取值中有 NULL 的样本,剩余样本数为 1237。对剩余样本进展关联分析,模型性能参数如下:依据提升度降序排列得到前 6 条结果为:由结果可知,毕业率高、归还率高,简洁伴随高毕业薪水的发生;学费高, 毕业率高,会有高归还率。图 4.2.1 为规章的置信度,提升度,支持度散点图。图 4.2.2 中 supp 为 x 轴, conf 为 y 轴,颜色的深浅表示“order”,为规章里频繁项个数。图 4.2.3 为局部规章,项集有向图,大小表示 support,颜色表示 Lift。【原创】附代码数据 有问题到淘宝找“大数据部落”就可以了图 4.2.1 散点图图 4.2.2 频繁规章数5图 4.2.3 项集有向图