《终于有人把数据挖掘讲明白了.docx》由会员分享,可在线阅读,更多相关《终于有人把数据挖掘讲明白了.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、终于有人把数据搀掘讲明白了导读:为什么要进行数据挖掘?什么是数据挖掘?数据挖掘的主要内容又有哪些? 本文将逐一解答这些问题。通过本文的学习,你将对数据挖掘从为什么到是 什么,再到有什么有一个基本的了解。010100101C 1101010(5001#010100101C 1101010(5001#随着大型数据库的建立和海量数据的不断涌现,人们迫切需要强有力的数据分析工具。但现实情况往往是数据十分丰富,而信息相当贫乏。快速增长的海量数据被收集、存放在大型数据库中,没有强有力的工具,以人类 现有的能力很难理解它们。因此,有人说大数据是数据坟墓。当采用数据挖 掘工具进行数据分析时,可以发现隐藏在大数
2、据之中重要的数据内容、模式,能 对商务决策、知识库、科学和医学研究等做出巨大贡献。为解决数据和信息之间 的鸿沟,我们应系统地学习数据挖掘知识,开发数据挖掘工具,将数据坟墓花色相同的牌符号相同的牌图6聚类准那么影响结果示意回归分析(regression analysis )是一个统计预测模型,用于描述和评估应变量 与一个或多个自变量之间的关系,包括一元线性回归、多元线性回归、非线性回 归、逻辑回归等。具体来说,可以利用回归模型来实现数值预测的任务,比方前 面提到的房价预测任务。当自变量为非随机变量、因变量为随机变量时,分析它们的关系称为回归分析;根据回归分析可以建立变量间的数学表达式,称为归方程
3、。回归方程反映自变量在固定条件下因变量的平均状态变化情况。相关分析是以某一指标来度量回归方程所描述的各个变量间关系的密切程度。回归分析方法常用于解释市场占有率、销售额、品牌偏好及市场营销效果。把两个或两个以上定距或定比例的数量关系用函数形式表示出来,就是回归分析要解 决的问题。01数据挖掘过程数据挖掘(data mining )又译为资料探勘、数据采矿,是指从大量的、不完全 的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但 又潜在有用的信息和知识的过程。数据挖掘的具体过程描述如下:1)数据:进行数据挖掘首先要有数据,可以根据任务的目的选择数据集,并筛选 自己需要的数据,或
4、者根据实际情况构造自己需要的数据。2)预处理:确定数据集后,就要对数据进行预处理,使数据能够为我们所用。数 据预处理可以提高数据质量,包括准确性、完整性和一致性。进行数据预处理的 方法有数据清理、数据集成、数据规约和数据变换等。3)变换:进行数据预处理后,对数据进行变换,将数据转换成一个分析模型,这 个分析模型是针对数据挖掘算法建立的。建立一个真正适合数据挖掘算法的分析 模型是数据挖掘成功的关键。4)数据挖掘:对经过转换的数据进行挖掘,除了选择合适的挖掘算法外,其余一 切工作都能自动地完成。5 )解释/评估:解释并评估结果,最终得到知识。其使用的分析方法一般视数据 挖掘操作而定,通常会用到可视
5、化技术。数据挖掘的具体过程如图1所示。知识!02数据挖掘的内容关联规那么挖掘从大规模数据中搀掘对象之间的隐含关系称为关联分析(Associate Analysis ) 或者关联规那么挖掘(Associate Rule Mining ),它可以揭示数据中隐藏的关联 模式,帮助人们进行市场运作、决策支持等。考察一些涉及许多物品的事务。事务1中出现了物品甲,事务2中出现了物品乙,事务3中同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现是否有规律 可循呢?在数据库的知识发现中,关联规那么就是描述这种在一个事务中物品同时出现的规律的知识模式。更确切地说,关联规那么通过量化的数字描述物品甲的出 现对物
6、品乙的出现有多大的影响。一般采用可信度、支持度、期望可信度、作用度四个参数来描述一个关联规那么的 属性。在关联规那么的四个属性中,支持度和可信度能够比拟直接地形容关联规那么的性质。 如果不考虑关联规那么的支持度和可信度,那么在事务数据库中可以发现无穷多的 关联规那么。事实上,人们一般只对满足一定的支持度和可信度的关联规那么感兴趣。 因此,为了发现有意义的关联规那么,需要给定两个阈值:最小支持度和最小可信 度,前者规定了关联规那么必须满足的最小支持度;后者规定了关联规那么必须满足 的最小可信度。经典故事案例:关联规那么挖掘经典的案例即为购物篮中的啤酒和尿布的故事。啤 酒与尿布的故事产生于20世纪
7、90年代的美国沃尔玛超市中,在美国有婴儿的 家庭中,一般由母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购 买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看 上去不相干的商品经常会出现在同一个购物篮的现象。比方对于如下购物篮数据:顾客1 : 牛奶、果酱、面包顾客2 : 牛奶、鸡蛋、面包、糖 顾客3 : 面包、黄油、牛奶 我们可以推测牛奶一面包为一组关联规那么,即顾客购买了牛奶,可以推测该顾客 下一步很有可能会购买面包。2.1 分类分类算法是数据挖掘中的关键技术,它通过对数据训练集的分析研究,发现分类 规那么,从而具备预测新数据类型的能力。分类也是监督式机器学习方法
8、,根据训 练集学习模型,进一步利用模型对新数据的类别标签进行预测。分类算法主要包 括两个阶段:构建模型阶段,通过分析学习的训练数据集,训练并构建一 个准确率可以接受的模型,该模型用于描述特定的数据类集;使用阶段,使用 训练后的模型对未知数据对象进行分类。具体过程如下所示。第一步:类别标签学习建模(参见图2)。第二步:类别标签分类测试(参见图3)o分类标签预测与数值预测的区别如下:数值预测根据训练集学习模型,进一步利 用模型对新数据的数值进行预测,区别于分类标签预测,数值预测的输出为连续 的数值。姓名年龄(岁)收入信用评估汪明30低搬王敏40高7 王敏30低? 李勇30 40高? 图2分类学习建
9、模0测试数据分类规那么ft新数据:李勇,3040岁,收入高,信用评估如何?第一步:数值预测学习建模(参见图4)。姓名年龄(岁)收入信用值汪明30低65王敏40同?王敏30低9 *李勇30 40高9 测试数据图5数值预测测试下面来看一个分类标签预测案例和一个数值预测案例。(1)分类标签预测案例:员工离职预测根据给定的影响员工离职的因素和员工是否离职的记录,建立一个模型预测有可能离职的员工,具体数据如表1所示。其中,Attrition表示类别标签,也就是需 要预测的离散数据。表1员工离职数据属性说Age年龄Attrition是否已经离职,0表示离BusinessTravel商务差旅频率Distan
10、ceFromHome员工所在部门Education员工的教育程度,从1YearsWithC urrManager与目前的管理者共事年娄(2 )数值预测案例:房价预测作为一个典型的数值预测案例,房价预测一直备受关注。简言之,房价预测就是 综合房屋销售价格以及房屋的基本信息建立模型,从而预测其他房屋的销售价格。我们以Kaggle平台房价预测的局部数据集见表2为例进行说明。如表2所示, 房屋的基本信息主要包括建筑等级、区域分类、建筑面积、主路、小巷、房屋外 形、平整度、配套设施、房屋位置、地面坡度和销售价格,等等。其中,销售 价格便是需要预测的连续数值。表2 Kaggle房价预测数据集例如序号建筑
11、等级区域 分类建筑面积(m2)主路小巷房屋 外形平整度配: 设1160RL8 450PaveNARegLvlAlli220RL9 600PaveNARegLvlAlli360RL11 250PaveNAIR1LvlAlli470RL9 550PaveNA1R1LvlAll!560RL14 260PaveNAIR1LvlAlli650RL14 115PaveNA1R1LvlAlli720RL10 084PaveNARegLvlAll!860RL10 382PaveNAIR1LvlAlli950RM6 120PaveNARegLvlAlli10190RL7 420PaveNARegLvlAlli2.3聚类聚类为非监督式机器学习方法,不需要提供具有标签的训练集,而是直接以某种 聚类准那么将数据划分到不同类别中。聚类分析的结果通常受聚类准那么的影响,图6所示的聚类准那么如果设为花色相同和符号相同,那么得到两种不同的聚类结果。