《数据挖掘理论与技术研究.docx》由会员分享,可在线阅读,更多相关《数据挖掘理论与技术研究.docx(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据挖掘理论与技术研究数据挖掘理论与技术探讨论文导读:数据挖掘正是这样一种技术, 它可以从大量的数据中抽取潜在的有用信息和模式, 来帮助我们进行科学的决策。数据仓库(Data Warehouse ,简称 DW) 是一项基于数据管理和运用的综合性技术和解决方案。DM 是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发觉模式,它主要基于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘出意料之外的或未知的关系、模式和联系,预料客户的行为,帮助企业决策者作出正确的决策。关键词:数据挖掘,数据仓库,决策支持 0.引言随着数据库技术的广泛应用, 人们越来越感到数据丰富而
2、学问贫乏。面对浩大的数据资源, 人们迫切须要能够自动处理数据资源并能将其转化为学问的自动工具。数据挖掘正是这样一种技术, 它可以从大量的数据中抽取潜在的有用信息和模式, 来帮助我们进行科学的决策。1.数据挖掘的定义数据挖掘,也可以称为数据库中的学问发觉(Knowledge Discover Database ,KDD) ,是从大量数据中提取出可信、新奇、有效并能被人理解的模式的高级处理过程。数据挖掘(Data Mining ,简称 DM) 比较公认的定义是 W. J . Frawley、G. Piatetsky、Shapiro 等人提出的:就是从大型数据库的数据中提取人们感爱好的学问。是利用一
3、些方法和模型,通过对数据进行分析,探究出这些数据中不明显、事先不知道和有运用潜力的信息。对于一个企业领导来说,假如不仅仅满意于统计报表,那么 DM 就是必要的。近十几年来,人们利用信息技术生产和搜集数据的实力大幅度提高,多数个数据库被用于商业管理、政府办公、科学探讨和工程开发等,DM 能供应特别重要的,对决策者可能是完全崭新的决策信息。数据挖掘能供应的数据的模式有以下几类:(1) 概念描述概念是对一个包含大量数据的数据集合总体状况的概括性描述。用户通过对数据库中细微环节数据的数据泛化来用高层次的抽象名称来描述数据库所反映的定性概念。还可以通过对不同的数据库进行对比泛化, 从而得出不同数据库间相
4、对的概念。(2) 关联规则关联规则的挖掘就是从大量的数据中发觉有价值的各项条目间存在的内在联系。从而利用这些关联规则进行决策。如从商业贸易记录中找出不同商品销售状况的关联, 发觉消费者的消费爱好, 变更销售模式以迎合消费者, 提高销售额。(3) 分类与预料分类指找出能够反映某一数据集合的特征的模型或函数, 以便将未知的事例反映到某种离散的类别。但对于连续的数值预料则成为预料。(4) 聚类分析聚类是一种特别的分类, 与分类分析方法不同, 聚类分析是在预先不知道预划定类的状况下, 依据信息相像度原则进行信息集聚的一种方法。(5) 异类分析对于数据库中那些不属于分类预料或聚类分析所获得的模型的数据对
5、象就称为异类。例如: 可以依据信用卡的运用地点、购买商品的类型来发觉属于信用卡诈骗的购买行为( 异类数据) 。(6) 演化分析数据对象的模型会随着时间的改变而变更,而对这一改变趋势的描述就称为数据演化分析。例如: 利用演化分析方法可对股票的交易数据进行时序分析, 获得股票市场的股票演化规律。2.数据挖掘的理论框架 2.1 基于数据仓库的数据挖掘技术数据仓库(Data Warehouse ,简称 DW) 是一项基于数据管理和运用的综合性技术和解决方案。DW 作为一种新型的数据存储地,为 DM 供应了新的支持平台。DM 是决策支持的一个过程,是决策支持的重要组成部分,是数据分析的发觉模式,它主要基
6、于人工智能,机器学习,统计学等技术,高度自动化地分析企业原有数据,从而发掘出意料之外的或未知的关系、模式和联系,预料客户的行为,帮助企业决策者作出正确的决策。如图1 描述了数据仓库环境中的 DM 的体系结构。DM 要发挥作用,首先必需在企业中实现 DW,同时还必需具备实施 DM 的技术和工具,只有这样才能详细实施 DM。图 1数据仓库环境中的 DM 的体系结构 DM的特点是处理的数据规模非常浩大; 查询是决策者提出的随机查询,须要靠 DM 技术找寻可能感爱好的数据; 在一些应用中,由于数据不断改变,因此要求 DM 能快速做出反应,以提高决策支持。DM 即要发觉潜在规则,还要管理和维护规则。DM
7、 中规则的发觉主要基于大样本的统计规律,发觉的规律不必适用于全部数据,当达到某一阈值时便可以认为有此规律。DM 技术从一起先就是面对应用的。它不仅是面对特定数据库的简洁检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发觉事务间的相互关联,甚至利用已有的数据对将来的活动进行预料。例如加拿大 BC 省电话公司要求加拿大 Simon Fraser 高校 KDD 探讨组,依据其拥有十多年的客户数据,总结、分析并提出新的电话收费和管理方法,制定既有利于公司又有利于客户的实惠政策。这样就把人们对数据的应用,从低层次的末端查询操作,提高到为各级经营决策
8、者供应决策支持。2.2 数据挖掘的方法(1) 关联规则关联规则是够揭示大型数据集合中好玩的趋势、模式和规则,形式为A1 ∧ A2 ∧ ?Am → B1 ∧ B2 ∧ ?Bn其中 Ai ( i = 1 ,2 , ?, m) ,Bj ( j = 1 ,2 ,?, n) 是数据库中的数据项之间的关联即依据一个事务中某些项的出现,可以推导出另一些项在同一事务中也出现。是搜寻业务系统中的全部细微环节和事务,从中找寻出重复概率很高的模式。关联分析是在给定一组项目类别和一些记录集合的条件下,通过分析记录集合,计算最小值信度,从而推导出各项目之间的相关性。事务数据库中的关联挖掘是大型数据库中关联规则挖掘的典型状况。在这种状况下,对每个组成项都有详细明确的数值,一个客户的事务(交易) 将包括这些项的子集。(2) 神经网络神经网络是通过模拟人脑反复学习技术来工作的。对给出的样本数据,神经网络通过类似人类记忆过程的方式学习数据中的统计规律,归纳出能描述样本特征的数据模型,然后用已学会的数据模型分类新给出的数据。神经网络已经很好地运用于辨别贷款诈骗,图象识别,推断健康状况,分析、理解股票和债券的异样波动等领域。一个神经网络是大型并行分布的处理器,它由许多简洁的处理单元组成。