《数据挖掘技术论文开题报告.docx》由会员分享,可在线阅读,更多相关《数据挖掘技术论文开题报告.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘技术论文开题报告毕业都是须要进行论文的写作,数据挖掘技术论文的开题报告怎么写?下面是我整理的数据挖掘技术论文开题报告,欢迎阅读!数据挖掘技术综述数据挖掘(Data Mining)是一项较新的数据库技术,它基于由日常积累的大量数据所构成的数据库,从中发觉潜在的、有价值的信息称为学问,用于支持决策。数据挖掘是一项数据库应用技术,本文首先对数据挖掘进行概述,阐明什么是数据挖掘,数据挖掘的技术是什么,然后介绍数据挖掘的常用技术,数据挖掘的主要过程, 如何进行数据挖掘,主要应用领域以及国内外现状分析。一. 探讨背景及意义近十几年来,随着数据库系统的广泛流行以及计算机技术的快速发展,人们利用信息技
2、术生产和搜集数据的实力大幅度提高。千万个数据库被用于商业管理、政府办公、科学探讨和工程开发等,特殊是网络系统的流行,使得信息爆炸性增长。这一趋势将持续发展下去。大量信息在给人们带来便利的同时也带来了一大堆的问题:第一是信息过量,难以消化;其次是信息真假难以分辨;第三是信息平安难以保证;第四是信息形式不一样,难以统一处理。面对这种状况,一个新的挑战被提出来:如何才能不被信息的汪洋大海所沉没,从中刚好发觉有用的学问,提高信息利用率呢?这时出现了新的技术数据挖掘(Data Mining)技术便应用而生了。面对海量的存储数据,如何从中发觉有价值的信息或学问,成为一项特别艰难的任务。数据挖掘就是为迎合这
3、种要求而产生并快速发展起来的。数据挖掘探讨的目的主要是发觉学问、使数据可视化、订正数据。二. 概述1,数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和学问的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发觉学问的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发觉了的学问可以被用于信息管理、查询优化、决策支持、过程限制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能
4、以及学问工程等领域的探讨成果构建自己的理论体系,是一个交叉学科领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。 2,数据挖掘技术数据挖掘就是对观测到的数据集进行分析,目的是发觉未知的关系和以数据拥有者可以理解并对其有价值的新奇方式来总结数据。它利用各种分析方法和分析工具在大规模海量数据中建立模型和发觉数据间关系的过程,这些模型和关系可以用来做出决策和预料。数据挖掘的过程就是学问发觉的过程,其所能发觉的学问有如下几种:广义型学问,反映同类事物共同性质的学问;特征型学问,反映事物各方面的特征学问;差异型学问,反映不同事物之间属性差别的学问;关联型学问,反映事物之间依靠或关联的
5、学问;预料型学问,依据历史的和当前的数据推想将来数据;偏离型学问,揭示事物偏离常规的异样现象。全部这些学问都可以在不同的概念层次上被发觉,随着概念树的提升,从微观到中观再到宏观,以满意不同用户、不同层次决策的须要。数据挖掘是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的探讨方向之一。3,数据挖掘的功能数据挖掘通过预料将来趋势及行为,做出预料性的、基于学问的决策。数据挖掘的目标是从数据库中发觉隐含的、有意义的学问,按其功能可分为以 下几类。3.1 关联分析(Association Analysis)关联分析能找寻到数
6、据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发觉一个事物与其他事物间的相互关联性或相互依靠性。3.2 聚类输入的数据并无任何类型标记,聚类就是按肯定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相像度,而在不同簇中的对象差别很大。聚类增加了人们对客观现实的相识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。3.3 自动预料趋势和行为数据挖掘自动在大型数据库中进行分类和预料,找寻预料性信息,自动地提出描述重要数据类的模型或预料将来的数据趋势,这样以往须要进行大量手工分析的问题如今可以快速干
7、脆由数据本身得出结论。3.4 概念描述对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇合的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区分性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区分。生成一个类的特征性只涉及该类对象中全部对象的共性。生成区分性描述的方法许多,如决策树方法、遗传算法等。3.5 偏差检测数据库中的数据常有一些异样记录,从数据库中检测这些偏差很有意义。偏差包括许多潜在的学问,如分类中的反常实例、不满意规则的特例、观测结果与模型预料值的偏差、量值随时间的改变等。偏差检测的基本方法是找寻观测结果与参照值之间
8、有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特别消费者的消费习惯。三目前的探讨现状及存在的主要问题自KDD一词首次出现在1989年8月实行的第11届国际联合人工智能学术会议以来。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了13次,规模由原来的专题探讨会发展到国际学术大会,人数由二三十人到超过千人,论文收录数量也快速增加,探讨重点也从发觉方法渐渐转向系统应用直到转向大规模综合系统的开发,并且注意多种发觉策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和学问发觉列为议题之一,成为当前计算机科学界的一大热点。与国外相比,国内对DMKD的
9、探讨稍晚,没有形成整体力气。1993年国家自然科学基金首次支持我们对该领域的探讨项目。目前,国内的很多科研单位和高等院校竞相开展学问发觉的基础理论及其应用探讨,这些单位包括清华高校、中科院计算技术探讨所、空军第三探讨所、海军装备论证中心等。其中,北京系统工程探讨所对模糊方法在学问发觉中的应用进行了较深化的探讨,北京高校也在开展对数据立方体代数的探讨,华中理工高校、复旦高校、浙江高校、中国科技高校、中科院数学探讨所、吉林高校等单位开展了对关联规则开采算法的优化和改造;南京高校、四川联合高校和上海交通高校等单位探讨、探讨了非结构化数据的学问发觉以及Web数据挖掘。四. 探讨内容1,数据挖掘的过程数
10、据挖掘是指一个完整的过程,该过程从大型数据库中挖掘从前未知的、有效的、可好用的信息,并运用这些信息做出决策或丰富学问。数据挖掘的一般过程如下流程图所示:图1,数据掘的一般过程2.1 神经网络神经网络方法是模拟人脑神经元结构,以MP模型和Hebb学习规则为基础。它主要有三种神经网络模型:前馈式网络、反馈式网络、自组织网络。为2.2决策树决策树学习着眼于从一组无次序、无规则的事中推理出决策树表示形式的分类规则。它采纳自顶向下的递归方式,在决策树的内部结点进行属性值的比较并依据不同的属性值推断从该结点向下的分支,在决策树的叶结点得到结论。2.3 遗传算法遗传算法是一种优化技术,是模拟生物进化过程的算
11、法。基于进化理论,并采纳遗传结合、遗传变异以及自然选择等设计方法。由三个基本算子组成:繁殖、交叉、变异。2.4 传统统计分析这类技术建立在传统的数理统计的基础上。在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采纳判别分析、因子分析、相关分析、多元回来分析及偏最小二乘回来方法等。2.5 关联规则关联规则是发觉一个事物与其他事物间的相互关联性或相互依靠性。关联规则是展示属性: 值频繁地在给定数据集中一起出现的条件,是数据挖掘中作用比较广泛的学问之一。2.6 可视化技术可视化技术是利用计算机图形学和图像技
12、术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化数据挖掘技术将可视化有机地融合到数据挖掘之中,运用户对于数据挖掘有一个更加干脆直观清楚的了解,供应让用户有效、主动参加数据挖掘过程的方法。3,数据挖掘的应用领域数据挖掘技术从一起先就是面对应用的。它不仅是面对特定数据库的简洁检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计,分析,综合和推理,以指导实际问题的求解,企图发觉事务间的相互关联,甚至利用已有的数据对将来的活动进行预料。一般Data Mining较长被应用的领域包括金融业、保险业、零售业、直效行销业、通讯业、制造业以及医疗服务业等。更广义的说法
13、是:数据挖掘意味着在一些事实或视察数据的集合中找寻模式的决策支持过程。4,数据挖掘的发展方向目前,数据挖掘的探讨方面主要有:数据库学问发觉方面,将学问发觉(KDD)与数据库系统、数据仓库系统和Web数据库系统紧密结合,力图充分利用Web中的丰富资源;机器学习方面,进一步探讨学问发觉方法,希望克服现存算法的计算性瓶颈,如注意对Bayes(贝叶斯)方法以及Boosting算法的探讨和提高;统计领域,加大传统统计方法在数据挖掘中的应用。数据挖掘探讨正蓬勃开展,在今后还会掀起更大的波澜,其探讨焦点集中到以下几个方面:探讨特地用于学问发觉的数据挖掘语言,或许会像SQL语言一样走向形式化和标准化;寻求数据
14、挖掘过程中的可视化方法,使得学问发觉的过程能够被用户理解,也便于在学问发觉过程中的人机交互;探讨在网络环境下的数据挖掘技术,特殊是在Internet上建立数据挖掘服务器,与数据库服务器协作,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据。5,数据挖掘的新技术Web数据挖掘技术首要解决半结构化数据源模型和半结构化数据模型的查询与集成问题。这就必需要有一个模型来清楚地描述Web上的数据,而找寻一个半结构化的数据模型是解决问题的关键所在。除此之外,还须要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。XML可看作一种半结构化的数据模型,可以很简
15、单地将XML的文档描述与关系数据库中的属性对应起来,实施精确地查询与模型抽取。利用XML.Web设计人员不仅能创建文字和图形,而且还能构建文档类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。6,数据挖掘面临的问题和挑战虽然数据挖掘技术已经在各方面都得到了广泛的应用,但数据挖掘技术的探讨还不够成熟,在应用上有很大的局限性。正是这些局限性,促使数据挖掘技术进一步的发展:(1)挖掘的对象 数据库更大,维数更高,属性之间更困难,数据挖掘处理的数据通常非常巨大。(2)数据丢失问题 因大部分数据库不是为学问发觉而定做的,那么它就有可能会存在一些重要的数据和属性丢失的问题。(3)多种形
16、式的输入数据 目前数据挖掘工具能处理的数据形式有限,一般只能处理数值型的结构化数据。(4)网络与分布式环境的KDD问题 随网络的发展,资源的丰富,技术人员各自独立处理分别数据库的工作方式应是可协作的。五.探讨达到的预期结果系统的介绍数据挖掘技术,使更多的探讨人员在数据库中发觉有用的,有潜在价值的数据学问。六.小结通过各方面资料的查找,理解了基本的数据挖掘概念、数据挖掘技术、数据挖掘的实际应用及国内外现状。在论文中将对数据挖掘的概念以及发展概况进行介绍,并总结数据挖掘中运用的技术,主要结合当前的探讨成果,分析了数据挖掘领域的。探讨领域方面,可能主要集中在网络信息中的主要应用。七.毕业论文进程支配序号 论文各阶段支配内容 日期1 资料调研及方案设计 1.4-1.102 数据挖掘的概论探讨 1.11-1.254 数据挖掘常用技术探讨 1.26-2.155 数据挖掘的应用探讨 2.15-3.1(中期检查)6 数据挖掘的新技术探讨 3.1-3.107 数据挖掘的发展方向 3.11-3.168 撰写论文 3.16-4.109 论文修改 4.11-4.3010 打算答辩,交老师批阅 5.1-5.5