《数据挖掘及其应用.docx》由会员分享,可在线阅读,更多相关《数据挖掘及其应用.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、?数据挖掘论文?数据挖掘分类方法及其应用课程名称:数据挖掘概念与技术 姓 名 学 号: 指导教师: 数据挖掘分类方法及其应用作 者: 来 煜摘要:社会的开展进入了网络信息时代,各种形式的数据海量产生,在这些数据的背后隐藏这许多重要的信息,如何从这些数据中找出某种规律,发现有用信息,越来越受到关注。为了适应信息处理新需求与社会开展各方面的迫切需要而开展起来一种新的信息分析技术,这种局势称为数据挖掘。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术与新领域的不断出现,对分类方法提出了新的要求。关键字:数据挖掘;分类方法;数据分析l 引
2、言数据是知识的源泉。但是,拥有大量的数据与拥有许多有用的知识完全是两回事。过去几年中,从数据库中发现知识这一领域开展的很快。广阔的市场与研究利益促使这一领域的飞速开展。计算机技术与数据收集技术的进步使人们可以从更加广泛的范围与几年前不可想象的速度收集与存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的知识获取方法是由知识工程师把专家经历知识经过分析、筛选、比拟、综合、再提取出知识与规那么。然而,由于知识工程师所拥有知识的有局限性,所以对
3、于获得知识的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数据分析的根底上进展科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进展深层次的处理,使得人们只能望“数兴叹。数据挖掘正是为了解决传统分析方法的缺乏,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的根底上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注
4、,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进展高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。至今已提出了多种分类算法,主要有决策树、关联规那么、神经网络、支持向量机与贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。大局部技术都是使用学习算法确定分类模型,拟合输入数据中样本类别与属性集之间的联系,预测未知样本的类别。训练算法的主要目标是建立具有好的泛化能力的模型,该模型能够准确地预测未知样本的类别。1数据挖掘概述数据挖
5、掘又称数据库中的知识发现,是目前人工智能与数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中提醒出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找与规律表示3个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表
6、示是尽可能以用户可理解的方式如可视化将找出的规律表示出来。分类技术是数据挖掘中应用领域极其广泛的重要技术之一。各种分类算法有其自身的优劣,适合于不同的领域。目前随着新技术与新领域的不断出现,对分类方法提出了新的要求。2数据挖掘分类算法介绍 分类是用于识别什么样的事务属于哪一类的方法,可用于分类的算法有决策树、关联规那么、神经网络、支持向量机与贝叶斯、k临近法、遗传算法、粗糙集以及模糊逻辑技术等。下面对假设干分类问题进展简要分析。21基于决策树的分类 基于决策树的分类算法是数据挖掘中最为典型的分类算法。决策树是一个类似于流程图的树构造,其每个内部节点表示在一个属性上的测试,每个分枝代表一个测试输
7、出,每个叶节点代表类或类分布。 211决策树算法根本思想。开场时所有的训练样本在根部,基于最高信息增益自顶向下递归地划分数据集,生成决策树。当一个结点上所有样本都属于同一类或者没有剩余属性可以用来进一步划分样本时停顿划分,形成一个叶结点。如果叶结点上的样本不属于同一类,那么根据大多数样本的分类来确定叶结点的类别。 创立决策树时,因数据中存在噪声与孤立点,许多分枝反映的是训练数据集中的异常。剪枝方法可以剪去不可靠的分枝,提高分类速度与分类的准确度。常用的剪枝方法有:先剪枝与后剪枝。前者通过提前停顿树的构造而对树剪枝;后者在完全创立好的树上剪去分枝。 212典型的决策树算法。最为典型的决策树学习算
8、法是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法c45与c50是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。在决策树中,从根到树叶的每条路径以IFTHEN形式表示一条分类规那么,沿着给定路径上的每个属性一值对形成规那么前件的一个合取项,叶结点包含类预测,形成规那么后件。 213优缺点。决策树很擅长处理非数值型数据,从决策树中可以方便地提取分类规那么。其主要优点是描述简单,分类速度快,特别适合大规模的数据处理。缺乏之处是ID3算法偏向于选择属性较多的属性,而属性较多的属性往往不是最优的属性:学习简单的逻辑表达能力较差。 22基于统计的分类 贝叶斯分类算法是基于贝叶斯
9、定理的一种统计学分类算法。它们可以预测类成员关系的可能性,如给定样本属于一个特定类的概率。如果出现类别重叠现象,贝叶斯分类算法采用两种方法处理这种情况:一是选择后验概率最大的类别,二是选择效用函数最大(或损失最小)的类别。贝叶斯分类也是一种常用的分类方法,它是一种对属性集与类变量的概率关系建模的方法。其理论根底是贝叶斯定理,可用式221表示。 p(cx)p(xc)p(c)/p(x) 221其中x是类标号未知的数据样本。设c为某种假定,如数据样本I属于某特定类民那么P(cx)为c成立的概率,也称为类c的先验概率;P(x)为x的支持度。P(cx)是规定数据样本x,假定c成立的概率,称作类c的后验概
10、率。P(xvc)是假定c成立的情况下,样本x的支持度,也称为类条件概率。 准确估计类标号与属性值的每一种可能组合的后验概率非常困难,因为即便属性数目不是很大,仍然需要很大的训练集。此时,贝叶斯定理很有用,因为它允许我们用先验概率P(c)、类条件概率P(xc)与P(x)来表示后验概率。 在比拟不同类c的后验概率时,分母P(x)总是常数,因此可以忽略。先验概率P(c)可以通过计算训练集中属于每个类的训练记录所占的比例很容易地估计。因此类c的后验概率P(xc)确实定取决于对类条件概率P(xc)的估计。对类条件概率P(xc)的估计,常使用两种贝叶斯分类方法来实现:朴素贝叶斯分类与贝叶斯信念网络。 23
11、基于神经网络的分类 231根本思想。经常用于分类的还有人工神经网络方法。神经网络3为解决大复杂度问题提供了一种相对来说比拟有效的简单方法,它是模仿人脑神经网络的构造与某些工作机制而建立的一种非线形预测模型,经过学习进展模式识别的。其工作机理是通过学习改变神经元之间的连接强度。神经网络有前向神经网络、反应神经网络、自组织神经网络等,在神经网络中,由权重与网络的拓扑构造决定了它所能识别的模式类型。神经网络分类过程可以分为训练与分类两个阶段。在训练阶段,首先定义网络的拓扑构造,再对训练样本中的每个属性的值进展标准化预处理,然后用神经网络对已预处理的输入进展学习。训练完毕后,用训练好的神经网络对标识样
12、本进展分类。 最流行的神经网络学习算法是后向传播算法。后向传播算法是在多层前馈神经网络上进展学习的。这种神经网络具有一个输入层与一个输出层,在两者之间可能包含多个中间层,这些中间层叫做隐藏层。后向传播通过迭代地处理一组训练样本,将每个样本的网络预测与实际知道的类标号比拟,进展学习。对于每个训练样本,修改权值,使得网络预测与实际类之间的均方误差最小。这种修改后向进展,即由输出层,经由每个隐藏层,到第一个隐藏层。一般的,权将最终收敛,学习过程停顿。算法的每一次迭代包括两个阶段:前向阶段与后向阶段。在前向阶段,使用前一次迭代所得到的权值计算网络中每一个神经元的输出值。计算是向前进展的,先计算第k层神
13、经元的输出,再计算第k1层的输出。在后向阶段,以相反的方向应用权值更新公式,先更新k1层的权值,再更新第k层的权值。 232优缺点。神经网络法的优点是有较强的抗噪能力,对未经训练的数据也具有较好的预测分类能力。神经网络的主要缺点是用加权链连结单元的网络所表示的知识很难被人理解、学习时间较长,仅适用于时间容许的应用场合;对于如网络构造等关键参数,通常需要经历方能有效确定。 24基于源自关联规那么挖掘概念的分类 241根本思想。关联规那么聚类系统是基于聚类挖掘关联规那么,然后使用规那么进展分类。挖掘形如Aquan1Aquan2Acat的关联规那么;其中,Aquan1,Aquan2是在量化属性区间上
14、的测试,为给定训练数据的分类属性指定一个类标号。关联规那么画在2-D栅格上。算法扫描栅格,搜索规那么的矩形聚类。由ARCS产生的聚类关联规那么用于分类,其准确率与C45差不多,准确度比C45高一点。 关联分类挖掘形如condsety的规那么,condset是项属性一值对的集合,y是类标号。假设给定数据集中的样本s包含condset并且属于类y,那么规那么的支持度为s。假设规那么满足预先指定的最小支持度,那么该规那么是频繁;假设给定数据集中包含conset的样本c属于类y,那么规那么的置信度为c;假设满足最小置信度,那么该规那么是准确的。如果一个规那么项集具有一样的condset,那么选择具有最
15、高置信度的规那么作为可能规那么,代表该集合。 242关联分类方法由两步组成。第一步是找出所有频繁的、准确的PR集合。算法使用迭代方法,类似Apriori。第二步使用一种启发式方法构造分类,发现的规那么按支持度与置信度递减的优先次序组织,用满足新样本满足该样本的第一个规那么对其分类。CBA是关联分类的经典算法,该方法比c45更准确。 25其他分类方法 用于数据分类的方法还有:基于案例的推理分类法、遗传算法等。 251基于案例的推理分类法。基于案例的推理分类法是基于要求的,其存放的样本是复杂的符号描述。当给定一个待分类的新案例时,基于案例的推理首先检查是否存在一个同样的训练案例。如果找到一个,那么
16、返回附在该案例上的解。如果找不到同样的案例,那么基于案例的推理将搜索具有类似于新案例成分的训练案例,这些训练案例可视为新案例的邻接者。 252遗传算法。遗传算法结合了自然进化的思想。遗传学习开场时创立了一个由随机产生的规那么组成的初始群体,每个规那么可以用一个二进制位串表示。根据适者生存的原那么,形成由当前群体中最适合的规那么组成的新群体,以及这些规那么的后代。后代通过使用诸如穿插与变异等遗传操作来创立。由先前的规那么群体产生新的规那么群体的过程继续进化,直到群体中每个规那么满足预先指定的适合度值3数据挖掘的应用 数据挖掘技术已应用于许多领域,如在学校、银行、电信、股市、保险、交通、零售等领域
17、已得到广泛的应用。31数据挖掘技术在高校中的应用 随着招生规模的扩大,高校的学生人数就到达上万人,甚至几万人,考试成绩到达几十万个数据,还有大量的学习成绩以外的影响因素,传统的学习成绩分析方法已不能完全满足需要,对此引入数据挖掘技术以找到影响学生成绩的真实原因,制定相应的措施,提高教育教学质量。32 数据挖掘技术在金融企业中的应用 321数据挖掘技术在证券行业中得到广泛应用,数据挖掘技术作为分析与辅助决策工具已经越来越得到国内券商的重视。322数据挖掘技术也应用于银行业,数据挖掘可以从大量的历史记录中发现或挖掘出这种关联关系更深层次的、更详尽的方面。323数据挖掘技术也应用于保险业保险金确实定
18、:对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以得到对不同行业的人、不同年龄段的人、处于不同社会层次的人的保险金该如何确定。险种关联分析:分析购置了某种保险的人是否同时购置另一种保险。预测什么样的顾客会购置新险种。33 数据挖掘技术在零售企业中的应用从超市销售管理系统、客户资料管理及其他运营数据中,可以收集到关于商品销售、客户信息、库存及超市店面信息等的信息资料。数据从各种应用系统中采集,经按不同条件分类,存放到数据仓库,允许管理人员、分析人员、采购人员、市场人员与客户访问,利用数据挖掘工具对这些数据进展分析,为管理者提供高效的科学决策工具。4数据挖掘应用实例41提出问题。一个自
19、行车厂商想要通过广告宣传来吸引顾客。他们从各地的超市获得超市会员的信息,方案将广告册与礼品投递给这些会员。但是投递广告册是需要本钱的,不可能投递给所有的超市会员。而这些会员中有的人会响应广告宣传,有的人就算得到广告册不会购置。所以最好是将广告投递给那些对广告册感兴趣从而购置自行车的会员。分类模型的作用就是识别出什么样的会员可能购置自行车。42自行车厂商首先从所有会员中抽取了1000个会员,向这些会员投递广告册,然后记录这些收到广告册的会员是否购置了自行车。数据如表1所示。表1 会员实例模型数据事例列会员编号12496141772438125597输入列婚姻状况MarriedMarriedSin
20、gleSingle性别FemaleMaleMaleMale收入40000800007000030000孩子数1500教育背景BachelorsPartial CollegeBachelorsBachelors职业Skilled ManualProfessionalProfessionalClerical是否有房YesNoYesNo汽车数0210上班距离0-1 Miles2-5 Miles5-10 Miles0-1 Miles区域EuropeEuropePacificEurope年龄42604136预测列是否购置自行车NoNoYesYes在分类模型中,每个会员作为一个事例,居民的婚姻状况、性别、
21、年龄等特征作为输入列,所需预测的分类是客户是否购置了自行车。43训练数据集填充模型使用1000个会员事例训练模型后得到的决策树分类如图1所示:图1 会员事例训练模型后得到的决策树分类431图中矩形表示一个拆分节点,矩形中文字是拆分条件。矩形颜色深浅代表此节点包含事例的数量,颜色越深包含的事例越多,如全部节点包含所有的1000个事例,颜色最深。经过第一次基于年龄的拆分后,年龄大于67岁的包含36个事例,年龄小于32岁的133个事例,年龄在39与67岁之间的602个事例,年龄32与39岁之间的229个事例。所以第一次拆分后,年龄在39与67岁的节点颜色最深,年龄大于67岁的节点颜色最浅。节点中的条
22、包含两种颜色,红色与蓝色,分别表示此节点中的事例购置与不购置自行车的比例。如节点“年龄=67节点中,包含36个事例,其中28个没有购置自行车,8个购置了自行车,所以蓝色的条比红色的要长。表示年龄大于67的会员有7462%的概率不购置自行车,有2301%的概率购置自行车。432在图中,可以找出几个有用的节点:1年龄小于32岁,居住在太平洋地区的会员有7275%的概率购置自行车;2年龄在32与39岁之间的会员有6842%的概率购置自行车;3年龄在39与67岁之间,上班距离不大于10公里,只有1辆汽车的会员有6608%的概率购置自行车;4年龄小于32岁,不住在太平洋地区,上班距离在1公里范围内的会员
23、有5192%的概率购置自行车;44模型训练后,还无法确定模型的分类方法是否准确。可以用模型对300个会员的检验集进展查询,查询后,模型会预测出哪些会员会购置自行车,将预测的情况与真实的情况比照,评估模型预测是否准确。如果模型准确度能满足要求,就可以用于对新会员进展预测。45在得到了分类模型后,将其他的会员在分类模型中查找就可预测会员购置自行车的概率有多大。随后自行车厂商就可以有选择性的投递广告册。5完毕语本文总结了数据挖掘的定义、目标、相关领域及其一般方法,基于数据挖掘技术数据资料之丰富,现在在论文中提到的相关领域已有了一些数据挖掘技术的模型,限于篇幅不再一一列举。作为一个新兴的研究领域,数据
24、挖掘仍然有许多问题需要进展深入研究。例如:从同一个数据库的不同层次上提取相应的规那么;确定一种方便、实用、统一的语言表达数据挖掘的结果;应用数据挖掘技术,基于动态数据库、面向对象技术、多媒体数据库及从国际互连网上抽取新的、有用的规那么。当然,数据挖掘技术同样应该包括对于所抽取规那么的准确性及数据的平安性、私密性的保护等领域的研究。数据挖掘技术是一个开展十分快的领域, 随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术开展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会,“信息不仅是资源,更是财富,要实现经济的腾飞,需依赖高新尖科技的开展,故利用提供的信
25、息,充分进展数据挖掘,那么将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。l 参考文献1.苏新宁,杨建林,江念南。数据仓库与数据挖掘M.2006;2.谭建豪。数据挖掘技术M.2021;3.david hand,heikiki manrlla等著。宋俊,廖丽等译M.2003;4.数据挖掘讨论组,数据挖掘资料汇编;5.朱明,数据挖掘.合肥:中国科技大学出版社2002,5;6.张春阳,周继恩,刘贵全,蔡庆生.基于数据仓库的决策支持系统的构建,计算机工程.2002(4):249-252;7.Jiawei Han, Miecheline Kamber 著。范明,孟小峰 译。数据挖掘概念与技术。机械工业出版社。第 15 页