《(5.7.1)--第5章BI核心技术之数据挖掘技术.pdf》由会员分享,可在线阅读,更多相关《(5.7.1)--第5章BI核心技术之数据挖掘技术.pdf(93页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第5单元 BI核心技术之数据挖掘技术本章导学5.45.35.25.1数据挖掘的工具数据挖掘技术的主要方法数据挖掘建模的标准数据挖掘技术概述数据挖掘技术概述CONTENTS数据挖掘的定义1数据挖掘的对象和功能2数据挖掘在商务智能中的应用3数据挖掘的定义数据挖掘的定义大数据时代,信息的快速增长带来的问题:大数据时代,信息的快速增长带来的问题:(1)(1)信息信息过量过量,难以消化;,难以消化;(2)(2)信息信息真假,真假,难以辨识;难以辨识;(3)(3)信息信息安全,安全,难以保证;难以保证;(4)(4)信息信息形式形式不一致,难以统一处理。不一致,难以统一处理。数据爆炸知识匮乏数据挖掘是就是从
2、大量的、不完全的、有噪声的、模糊数据挖掘是就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘数据库技术机器学习人工智能知识工程统计学高性能计算信息检索数据挖掘是按照企业既定业务目标,对商业数据库中的数据挖掘是按照企业既定业务目标,对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。从中提取辅助商业决策的关键性信息
3、。数据挖掘的对象和功能数据挖掘的对象和功能星型模型的应用(The Application of Star Schema)数据挖掘的对象数据挖掘可以应用于任何类型的数据关系型数据库数据仓库文本数据多媒体数据数据流互联网数据 运营数据:销售、成本、库存、财会等 客户数据:如购买记录、联系方式等 行业数据:行业销售、行业预测、宏观经济数据等 描述数据的数据:如数据定义、关联等描述分析聚类分析关联分析偏差分析预测分析分类分析回归分析聚类分析 找出数据集中的共性和差异,并将具有共性的对象聚合在相应的类中 聚类可以帮助决定哪些组合更有意义,广泛应用于客户细分、定向营销关联分析 发现特征之间的相互依赖关系,
4、通常是从给定的数据集中发现频繁出现的模式知识 关联分析广泛用于市场营销策略制定、事务分析等领域偏差分析 发现与众不同的数据 信用卡欺骗检测、网络入侵检测、贷款审核、医药研究分类分析 通过分析数据集中的数据的特征,为每个类别做出准确的描述或建立分类模型或挖掘分类规则,然后利用它们对其它数据集中的记录进行分类 应用于用户行为分析、风险分析、生物科学等回归分析 确定两种或两种以上特征间相互依赖的定量关系的一种分析方法 应用于未来趋势分析等数据挖掘在商务智能中的应用增加收入降低成本(1)注意客户正在做什么?(2)记住公司及其客户曾经做过什么?(3)挖掘客户与公司交易过程中留下的信息。(4)根据获得的知
5、识指导商业活动使顾客更加受益。A客户对公司的忠诚度怎样?哪些客户可能流失?哪种销售方式最适合A客户?新研发的产品应该以何种定位面世?什么因素决定A客户能否对B产品做出回应?A客户需要的下一种产品或者服务是什么?下一个分支机构应该设置在哪里?沃尔玛(walmart)公司将其5000家商店的销售点详细数据整合到一起,通过数据挖掘系统,沃尔玛能十分准确地预测每个商店、每种产品的销售情况,从而极大地降低了库存费用并从促销活动中获得巨大收益。(2)AutoT是世界上最大的汽车销售平台,通过运用SAS软件对用户在网站上的点击信息进行分析,找出用户的访问模式,判断用户对不同产品的喜欢程度,以此设特定服务,取
6、得了成功。(3)Bass Export是世界最大的啤酒进出口商之一,每个星期传送23000份定单,通过使用IBM的Intelligent Miner了解每个客户的习惯,来匹配客户的需求。数据挖掘技术在客户关系管理的价值体现在以下三个阶段:获得有价值的潜在客户、提高客户的价值、保持有效益的客户。个性化服务是根据用户的设定来实现,依据各种渠道对资源进行收集、整理和分类,向用户提供和推荐相关信息,以满足用户的需求。交叉销售,借助客户关系管理,发现已有客户的多种需求,并通过满足其需求而实现销售多种相关的服务或产品的营销方式。客户信用风险分析对企业的财务安全非常重要,利用数据挖掘中的关联分析、离群点检测
7、等技术对企业经营管理数据进行分析,预测可能发生风险的地点与原因 供应链管理是一种集成系统的管理思想和方法 通过对供应链中从供应商到最终消费者的物流、信息流、资金流进行计划、协调和控制等管理活动,使得供应链上各企业成为一个协调发展的有机体。数据挖掘建模标准CONTENTSCRISP-DM的四个层次1CRISP-DM的六个阶段2CRISP-DM的四个层次的四个层次 CRISP-DM(Cross-Industry Standard Process for Data Mining)是“数据挖掘的跨行业标准过程”在2000年推出了CRISP-DM 1.0模型,把数据挖掘过程中必要的步骤都加以标准化CRS
8、IP-DM具备广泛的适用性和实用性CRSIP-DM不限技术工具不限业务领域不限行业分类标准化的通用方法论关注商业目标关注数据获取和管理关注模型质量和迭代商业目标驱动,重视数据和算法阶段一般任务具体任务过程实例CRISP-DM的六个阶段的六个阶段数据挖掘的主要方法CONTENTS关联分析1聚类分析2分类分析3回归分析4关联分析关联分析在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。关联规则是寻找在同一个事件中出现的不同项的相关性。关联
9、分析supp X=|TIDItems1面包,牛奶2面包,尿布,啤酒,鸡蛋3牛奶,尿布,啤酒,可乐4面包,牛奶,尿布,啤酒5面包,牛奶,尿布,可乐牛奶,尿片 啤酒=(牛奶,尿片,啤酒)T=25=0.4=(牛奶,尿片,啤酒)(牛奶,尿片)=23=0.67 项集:一个或多个数据项的集合 如:牛奶,面包,尿布 支持数:项集出现的频数 如:(牛奶,面包,尿布)=2 支持度:项集在所有事务中出现的比例 如:s(牛奶,面包,尿布)=0.4 频繁项集:大于过等于最小支持度的项集 关联规则:形如AB的蕴含表达式,A和B是不相交的项集 如牛奶,尿布啤酒 规则强度的度量 支持度s:事务中同时包含项集A和B的比例 置
10、信度c:出现B的事务中同时包含A的比例A B support,confidence规则形式最小支持度minsup:它表示了一组物品集在统计意义上的需满足的最低程度。最小置信度minconf:它反应了关联规则的最低可靠度buys(x,“diapers”)buys(x,“beers”)50%,60%major(x,“CS”)takes(x,“DB”)grade(x,“A”)75%,100%算法1算法2数据集规则用 户最小支持度最小置信度关联规则挖掘的基本模型关联规则挖掘的基本模型supp X=|conf A=B=|发现频繁项集产生强规则算法策略Apriori算法的原理:1.通过限制候选产生发现频繁
11、项集2.由频繁项集产生关联规则Apriori算法的重要性质:性质1:频繁项集的子集必为频繁项集。如果B,C是频繁的,那么B,C也一定是频繁的 性质2:非频繁项集的超集一定是非频繁的。如果A,B是非频繁的,那么A,B,C,A,B,C,D也一定是频繁的Apriori算法的步骤:1.通过限制候选产生发现频繁项集扫描数据集,得到所有出现过的数据,作为候选1项集挖掘频繁k项集:扫描计算候选k项集的支持度,剪枝去掉候选k项集中支持度低于最小支持度的数据集,得到频繁k项集。如果频繁k项集为空,则返回频繁k-1项集的集合作为算法结果,算法结束。否则,基于频繁k项集,链接生成候选k+1项集利用步骤2,迭代得到k
12、=k+1项集结果TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5数据库 Ditemset sup.1223334153itemset sup.12233353扫描 DC1L1itemset1 21 31 52 32 53 5itemset sup1 211 321 512 322 533 52itemset sup1 322 322 533 52L2C2扫描 DC3L3itemset2 3 5扫描 Ditemset sup2 3 52Apriori算法的步骤:2.由频繁项集产生关联规则对于每个频繁项集I,产生I的所有非空子集对于I的每个非空子集s,如果
13、support(l)/support(s)min_conf,则输出规则其中,min_conf是最小置信度阈值规则规则置信度置信度2-3,566.7%3-2,566.7%5-2,366.7%2,3-512,5-366.7%3,5-21TID Items100 1 3 4200 2 3 5300 1 2 3 5400 2 5min_conf=70%聚类分析 谁是银行信用卡的优质客户?利用储蓄额、刷卡消费金额、诚信度等变量对客户分类 这样银行可以 制定更吸引的服务,留住客户!一定额度和期限的免息透资服务!百盛的贵宾打折卡!在他或她生日的时候送上一个小蛋糕!客户画像、客户的重要性级别认定、行业划分、产
14、品类型 聚类分析:把给定的数据对象集合分成不同的簇;簇:一组相似数据对象的集合 聚类是一种无监督分类法:没有预先指定的类别;典型的应用 可以了解数据的分布状态;也可以作为其它算法的一个数据预处理步骤;收入(元)年龄婚姻状况子女数目教育程度4500035已婚3高中6000024已婚1高中8700021未婚0高中9000025未婚2大学12000025已婚1大学15300060已婚0研究生18900032已婚2研究生第一组客户高中毕业且有小孩第二组客户高中毕业没有小孩第三组客户大学毕业且有小孩第四组客户收入较高、大学毕业以上、没有小孩第五组客户收入较高,大学毕业以上、有小孩数据预处理计算数据点之间
15、相似度聚类或分组评估输出数据预处理计算数据点之间相似度聚类或分组评估输出 数据预处理包括选择数量、类型和特征的标度,它依靠特征选择和特征抽取 特征选择是选择重要的特征;特征抽取是把输入的特征转化为一个新的显著特征;将孤立点移出数据数据预处理计算数据点之间相似度聚类或分组评估输出111212122212mmnnnmxxxxxxxxx数据矩阵()()()()()02,103,13,20,1,20dddd nd n距离矩阵聚类相似性的定义可以分为三种:基于距离的(Distance-Based)基于密度的(Density-Based)基于连接的(Linkage-Based)1(,)ijijrc d X
16、X=相似度数据预处理计算数据点之间相似度聚类或分组评估输出 数据基于不同的方法被分到不同的类中 基于划分:k-means 基于层次:Cube,Birch 基于密度:DBSCAN 基于模型:EM数据预处理计算数据点之间相似度聚类或分组评估输出 聚类是一个无管理的程序,也没有客观的标准来评价 Purity,NMI,RI,ARI,Precision,Recall,F-score,Accuracy 这些标准一般通过簇的有效索引来评价,采用几何性质,即包括簇间的分离程度和簇内的耦合程度的进行度量k-means算法以k为参数,把n个对象分成k个簇,使:簇内具有较高的相似度,而簇间的相似度较低算法步骤:1.
17、从D中随机取k个元素,作为k个簇的各自的中心。2.分别计算剩下的元素到k个簇中心的相似度,将这些元素分别划归到相似度最高的簇。3.根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数。4.将D中全部元素按照新的中心重新聚类。5.重复第3-4步,直到聚类结果不再变化。6.将结果输出。k-Means(I)k1k2k3XY随机挑选3个簇的中心点k-Means(II)k1k2k3XY将每个点分配到其距离最近的簇k-Means(III)XY按照簇的均值移动簇的中心点k1k2k2k1k3k3k-Means(IV)XYk1k2k3重新分配点到距离它最近的新簇中k-Means(
18、IV)XY三个点所在簇发生了变化k1k3k2k-Means Example(V)XY重新计算簇的均值k1k3k2k-Means Example(VII)XY移动簇的中心到簇的均值处k2k1k3分类分析分类分析Name:David FifieldPercent:91%Time:1/2/1999Address:1/F,St Teess,sdfff,ax1233,JASIssues:DQZFF人脸识别技术伯乐相马司天监观天象 作为BI的重要方法之一,分类广泛应用于决策分析,能够基于数据构建趋势描述模型并对未来做出预测。分类要解决的问题是为一个事件或对象归类,即确定一个特定的对象属于哪一类。银行的信用
19、评级、客户的重要性级别认定、行业划分、产品类型第一步,是基于历史数据(称为训练集)运用数据挖掘分类的技术,建立分类模型;第二步,应用该分类模型对没有分类的数据进行分类和预测。分类算法分类模型if 年龄=30-40 and 收入=高则 信用评估=良好分类模型新数据:李明,35,高良好训练集特征选取训练分类器新样本特征选取分类判决经典分类挖掘算法K最近邻法支持向量机法神经网络法决策树贝叶斯分类KNN算法思想:如果一个样本,它在特征空间的K个最相似或距离最近的样本中多数属于某个类别,则该样本也属于这个类别ScienceArtsCultreK=6,即6NN时,新点属于Sciene类的概率?常用的距离函
20、数:闵可夫斯基距离欧氏距离绝对距离切比雪夫距离夹角余弦距离 KNN距离判别的基本思想:根据待判定样本和已知样本之间的距离做出判断 具体:根据已知类别样本信息建立距离函数 将待判定的样本的属性数据逐一代入具体函数中,得到具体值 选距离最小的类别作为待判样本的类别 注:距离函数很重要,不同的数据集,距离函数不同。决策树是一种直观有效展示规则集的图形方式,也是实现分类预测的经典数据挖掘算法决策树组成:根节点 中间节点:代表一个分割属性 叶子节点:代表一个类别决策树的生成决策树的剪枝决策树的生长过程本质是对训练样本集的反复分组,涉及两个问题:如何从众多输入变量中选择当前最佳分组变量 如何从分组变量的众
21、多取值中找到一个最佳分割点最佳分组变量和最佳分割点应是使输出变量异异质性下降最快质性下降最快的变量和分割点 不同决策树算法采用了不同的度量标准 如C4.5,以信息增益率来确定哪个变量作为分组变量 信息增益ID3/C5.0 信息增益率 C4.5 基尼指数 IBM Intelligent Miner 2检验 CHAID决策树的生成决策树的剪枝决策树剪枝的两种方法:预剪枝:在构造决策树的同时进行剪枝后剪枝:决策树生长完成之后,对树进行剪枝,得到简化版的决策树回归分析回归分析 产出往往受各种投入要素资本、劳动力、技术等的影响;某种产品的销售额受到投入的广告费用、产品的价格、消费者的收入状况、社会保有量
22、以及其他可替代产品的价格等诸多因素的影响 趋势线:一条趋势线代表着时间序列数据的长期走势。它告诉我们一组特定数据(如GDP、石油价格和股票价格)是否在一段时期内增长或下降。可以利用线性回归计算出趋势线的位置和斜率。研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论,是进行数据分析以解释关联和因果关系的统计方法。回归分析基于一个变量或更多其他变量的变化来解释另一个变量的变化,其中 被解释的变量称为因变量(dependent variable)或目标变量 用于解释因变量变化的变量称为自变量(independent variable)或回归变量。33.73 0.561 yx=+依据描述依
23、据描述自变量与因变量之间因果关系自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,的函数表达式是线性的还是非线性的,分为分为线性回归线性回归和和非线性回归非线性回归分析。分析。线性回归分析是最基本的分析方法,遇到非线性回归问题可以线性回归分析是最基本的分析方法,遇到非线性回归问题可以借助数学手段化借助数学手段化为线性回归问题处理。为线性回归问题处理。自变量之间互不相关,即无多重共线性;自变量不是随机变量随机误差项不存在序列相关关系;随机误差项与自变量之间不相关;随机误差项服从0均值、同方差的正态分布因变量符合正态分布 线性回归:Y=+X 其中和是回归系数,可以根据给定的数据点,通过最
24、小二乘法来求得 多元回归:Y=+1X1+2X2 线性回归的扩展,设计多个自变量,可以用最小二乘法求得上式中的,1 和2 非线性回归:Y=+1X1+2X22+3X33 对不呈线性依赖的数据建模 使用多项式回归建模方法,然后进行变量变换,将非线性模型转换为线性模型,然后用最小二乘法求解数据挖掘的工具CONTENTS数据挖掘工具的分类1常用的数据挖掘工具2商业挖掘工具适用范围专用挖掘工具通用挖掘工具知识产权开源挖掘工具商业挖掘工具开源挖掘工具IBM SPSS ModelerPythonSAS Enterprise MinerRIBM Intelligent MinerRapidMinerSQL Se
25、rver 2005 Data MiningWekaOracle DMOrangeKNIME选择工具时应考虑:可产生的模式种类的数量 解决复杂问题的能力;操作性能;数据存取能力;和其他产品的接口。Clementine是ISL(Integral Solutions Limited)公司的数据挖掘工具平台。1999年SPSS公司收购了ISL公司,2009年10月,IBM 收购了 SPSS Inc。特点:界面友好易用,支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,并且支持数据挖掘的行业标准CRISP-DM 具体算法:分类、聚类、关联分析、异常检测、时间序列分析、贝叶斯网络、多
26、层感知器进行反向传播学习的基本神经网络 SAS最开始发源于北卡罗来纳州立大学,1976年SAS的成套软件从学校分离出来进入公司。特点:以统计理论为基础,图形化的界面,可视化的操作,有完备的数据探索功能。难以掌握,要求是高级统计分析专业人员,结果难以理解。价格昂贵,租赁模式。集成:数据获取工具;数据取样工具;数据筛选工具;数据变量转换工具;数据挖掘数据库;数据挖掘过程;多种形式的回归工具;为建立决策树的数据剖分工具;决策树浏览工具;人工神经元网络;数据挖掘的评价工具。美国IBM公司开发Intelligent Miner for Data:数据库、数据仓库和数据中心Intelligent Mine
27、r for Text:文本文件、Web页面、电子邮件、Lotus Notes数据库 自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作 具体算法:典型数据集自动生成、概念性分类、聚集、分类、估值、关联规则、序列模式、语言模型,以及结果可视化呈现Python语言擅长进行统计分析和数据挖掘,提供交互式数据分析和探索功能利用第三方库提供了丰富的数据挖掘的功能开源可扩展性强胶水语言方便易用工业领域=学术领域R语言是专业用于统计分析和数据挖掘,提供交互式数据分析和探索功能利用扩展包提供了丰富的数据挖掘功能开源具有可扩展性工业领域学术领域 Java语言开发,知名的免费开源数据挖掘工具。支持
28、几种经典的数据挖掘任务,包括数据预处理、收集、分类、回归分析、可视化和特征选取。高级用户可以通过Java编程和命令行来调用其分析组件。为普通用户提供了图形化界面 支持集群和虚拟内存 RapidMiner也称YALE,最受欢迎的开源数据挖掘工具之一,由Java语言编写而成,提供一些可扩展的数据分析挖掘算法的实现。用户无需写任何代码。RapidMiner提供如数据预处理和可视化、数据挖掘建模、统计分析建模、评估和部署等功能 可供了扩展包,可以搭建推荐系统和评论挖掘系统 是作为一个服务提供,而不是一款本地软件。Orange利用画布进行图形化操作,用户可以在画布上放置分析控件(widget),然后把控件连接起来即可组成挖掘流程。大量可视化方法,可以对数据和模型进行多种图形化展示,并能智能搜索合适的可视化形式,支持对数据的交互式探索。Orange的弱项在于传统统计分析能力不强,不支持统计检验,报表能力也有限。数据挖掘的常用方法关联分析、聚类分析、分类分析以及回归分析数据挖掘建模的四个层次、六个阶段数据挖掘的定义、对象和功能数据挖掘的典型工具