《数据挖掘技术与关联规则挖掘算法研究.doc》由会员分享,可在线阅读,更多相关《数据挖掘技术与关联规则挖掘算法研究.doc(102页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、摘 要数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数据挖掘的研究仍然处于广泛研究和探索阶段,迫切需要在基础理论、应用模式、系统构架以及挖掘算法和挖掘语言等方面进行创新。关联规则挖掘是数据挖掘中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。面对大型数据库,关联规则挖
2、掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要利用用户的约束等聚焦挖掘目标;需要对一些传统的算法进行改进;也需要研究新的更有效的算法等。鉴于目前数据挖掘技术和关联规则挖掘研究的现状和发展趋势,在各类基金的支持下,我们选择了这一课题开展相关工作。本文的研究主要包括数据挖掘应用系统体系结构、关联规则挖掘理论及其算法等。关于数据挖掘应用系统体系结构研究方面,我们设计了一个数据挖掘应用系统的原型体系结构,系统化地分析了知识发现的基本过程和系统的各部件功能。由于不同的源数据类型、不同的应用目标以及不同的挖掘策略对数据挖掘系统的功能部件要求不同,这些研究主要是从知识
3、发现的基本过程出发,探讨系统应具备的主要功能部件及其相互联系等。在关联规则挖掘理论研究上,我们首次给出了项目序列集格空间,并且探讨了在这个空间上的基本操作算子。基于项目序列集格空间及其操作,我们建立了关联规则挖掘模型和算法。在关联规则挖掘算法方面,设计了基于项目序列集操作理论的关联规则挖掘算法ISS-DM、时态约束下的关联规则挖掘算法TISS-DM、数据分割下的关联规则挖掘算法PISS-DM。ISS-DM 算法是建立在严格的项目序列集格理论及其操作基础上,是一个一次数据库扫描的而且不使用侯选集的高效算法。我们选择目前引用率较高的Apriori算法和ISS-DM进行了对比实验。结果表明,ISS-
4、DM执行时间整体上优于Apriori算法,而且随着数据量的增大ISS-DM执行时间的增长幅度也小于Apriori算法。为了提高对大型数据集挖掘的适应性,将时态约束应用到挖掘的预处理中,改进ISS-DM成TISS-DM。这部分工作还包括对时态区间、时态约束下的数据挖掘空间以及时态区间操作等进行了形式化,它们是TISS-DM的理论基础。对ISS-DM的另一个改进算法是PISS-DM。它是针对大数据集挖掘过程中对内存和CPU等系统资源要求较高的情况被提出和设计的,采用了数据分割的方法来减少资源的占用。本文解决了数据分割下局部频繁项目序列集和全局频繁项目序列集的转换等问题,是一个两次扫描数据库的算法。
5、总之,本文在分析、归类现有数据挖掘研究成果以及原型系统的基础上,进行了数据挖掘应用系统体系结构、关联规则挖掘理论模型以及算法方面的研究。在项目序列集格及其操作、时态约束挖掘空间等方面具有较好的理论价值,所设计的算法在挖掘效率和对大型数据库挖掘的可用性方面具有潜在的应用前景。关键词:数据挖掘,知识发现,关联规则,项目序列集,时态约束,数据分割。 AbstractAbstractData mining is a technique that aims to analyze and understand large source data and reveal knowledge hidden in
6、 the data. It has been viewed as an important evolution in information processing. Why there have been more attentions to it from researchers or businessmen is due to the wide availability of huge amounts of data and imminent needs for turning such data into valuable information. During the past dec
7、ade or over, the concepts and techniques on data mining have been presented, and some of them have been discussed in higher levels for the last few years. Data mining involves an integration of techniques from database, artificial intelligence, machine learning, statistics, knowledge engineering, ob
8、ject-oriented method, information retrieval, high-performance computing and visualization. Essentially, data mining is high-level analysis technology and it has a strong purpose for business profiting. Unlike OLTP applications, data mining should provide in-depth data analysis and the supports for b
9、usiness decisions. Like the other new techniques, however, data mining must develop gradually from concept creation, accepted importance, wide discussion, few usage attempts to a large applications. Most experts consider it as the phase of wide discussion today. It still needs theoretic studies and
10、algorithm exploring. Though some results have been achieved, more theoretic problems are kept in ongoing researches. In addition, data mining is from real applications and must combine with the specific business application logic to solve the specific problem. This is because that different business
11、 fields have different mining needs and targets. The successful data mining systems are the excellent combination of data mining techniques and the business logic, rather than tools that are designed to make data mining application development convenient. Association rule mining is an important bran
12、ch of data mining that it has obtained many valuable results but there still are a deal of more challenging problems to discuss. For large databases, the research on improving the mining performance and precision is necessary, so many focuses of today on association rule mining are about new mining
13、theories, algorithms and improvement to old methods.In this paper, the main researches involve the application architecture of data mining, the mining theories for association rules and the design of new efficient algorithms. This paper analyzed the basic processing phases of data mining or KDD, and
14、 gives the components of a data mining application system and their functions. In theoretic research, we first define Set of Item Sequences, and give some operators on this algebra lattice. Applying such theoretic results, we design an algorithm for mining association rules called ISS-DM, which is e
15、fficient with one pass to the database and without large candidates generated and stored. For mining large-scale databases, it is smart strategy to make use of constrains for improving data quality and reducing data capability. This paper introduces the problem of data mining based on temporal const
16、rains. We create two new operators on temporal interval space and design an algorithm called TISS-DM by making advance of these operators. TISS-DM may be seen as an improvement algorithm to ISS-DM, which can process more scale databases. In fact, recent researches have paid more attention to reduce
17、the number of passes over databases (I/O cost), memory usage and CPU overhead. This paper also gives an algorithm called PISS-DM which employs data partitioning technique and only has two passes over databases. Experimental results showed that these algorithms have higher mining efficiency in execut
18、ion time, memory usage and CPU utilization than most current ones like Apriori.In conclusion, this paper analyzes application architecture of data mining systems, creates new mining theoretic models, and designs a series of new algorithms based on such theories. Key words: Data mining, KDD(Knowledge
19、 Discovery in Databases), Association rules,Set of itemsequences, Temporal constraint, Data partitioning.目录 目 录摘要 IAbstract III第1章 绪论 11.1 研究背景 11.2 拟解决的问题 31.3 创新性工作 41.3.1 数据挖掘理论研究 41.3.2 关联规则挖掘算法设计与实现 51.4 本章小节 6第2章 数据挖掘技术 72.1 数据挖掘技术的产生背景 72.1.1 数据挖掘技术的商业需求分析 72.1.2 数据挖掘产生的技术背景分析 92.2 数据挖掘概念 102
20、.2.1 从商业角度看数据挖掘技术 102.2.2 数据挖掘的技术含义 112.2.3 数据挖掘研究的理论基础 122.3 数据挖掘技术的分类问题152.4 数据挖掘常用的知识表示模式与方法152.4.1 广义知识挖掘 152.4.2 关联知识挖掘 192.4.3 类知识挖掘 192.4.4 预测型知识挖掘 242.4.5 特异型知识挖掘 262.5 不同存储形式下的数据挖掘问题272.5.1 事务数据库中的数据挖掘 282.5.2 关系型数据库中的数据挖掘 282.5.3 数据仓库中的数据挖掘 302.5.4 在关系模型基础上发展的新型数据库中的数据挖掘 312.5.5 面向应用的新型数据源
21、中的数据挖掘 312.5.6 Web 数据源中的数据挖掘 322.6 数据挖掘的应用分析342.6.1 数据挖掘与 CRM 352.6.2 数据挖掘应用的成功案例分析 352.7 本章小节36第3章 知识发现过程与系统结构设计 373.1 知识发现的基本过程373.2 知识发现系统的基本构架403.3 知识发现软件或工具的发展423.4 知识发现项目的过程化管理443.5 本章小节45第4章 关联规则挖掘理论和算法研究 474.1 基本概念与解决方法474.2 经典的关联规则挖掘算法分析484.3 Apriori 算法的性能瓶颈问题504.4 对项目集格空间理论的发展514.5 项目序列集格空
22、间和它的操作554.6 基于项目序列集操作的关联规则挖掘算法 574.6.1 关联规则挖掘空间定义 574.6.2 三个实用算子 584.6.3 最大频繁项目序列集的生成算法 604.6.4 ISS-DM 算法执行示例 604.7 算法分析614.7.1 空间与时间复杂度的理论分析 614.7.2 实验数据与分析 624.8 本章小结65第5章 时态约束关联规则挖掘问题及算法 675.1 改善关联规则挖掘质量问题675.1.1 用户主观层面 685.1.2 系统客观层面 695.2 约束数据挖掘问题695.3 时态区间格及时态约束关联规则挖掘725.4 时态约束关联规则挖掘的预处理745.5
23、时态约束下的关联规则挖掘算法755.6 实验与讨论775.7 本章小结79第6章 数据分割下的挖掘问题及算法 816.1 关联规则的优化算法816.2 PISS-DM 算法描述876.2.1 数据分割问题 876.2.2 在数据分片中发现局部频繁项目序列 886.2.3 生成全局的频繁项目序列 896.3 实验896.4 本章小节91结论93参考文献95攻读博士学位期间所发表的学术论文 103致谢 104索引 105第1章 绪论第1章 绪论数据挖掘(Data Mining)是一个多学科交叉研究领域,它融合了数据库(Database)技术、人工智能(Artificial Intelligence
24、)、机器学习(Machine Learning)、统计学(Statistics)、知识工程(Knowledge Engineering)、面向对象方法(Object-Oriented Method)、信息检索(Information Retrieval)、高性能计算(High-Performance Computing)以及数据可视化(Data Visualization)等最新技术的研究成果。经过十几年的研究,产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它以一种全新的概念改变着人类
25、利用数据的方式。二十世纪,数据库技术取得了决定性的成果并且已经得到广泛的应用。但是,数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理(OLTP:On-Line Transaction Processing)为核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所周知,随着数据库容量的膨胀,特别是数据仓库(Data Warehouse)以及Web等新型数据源的日益普及,联机分析处理(OLAP:On-Line Analytic Processing)、决策支持(Decision Support)以及分类(Classification)、聚类(Clustering)等复杂应用成为必
26、然。面对这一挑战,数据挖掘和知识发现(Knowledge Discovery)技术应运而生,并显示出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更高级的阶段。它不仅能对过去的数据进行查询,并且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地作出理想的决策、预测未来的发展趋势等。1.1 研究背景经过十几年的研究和实践,数据挖掘技术已经吸收了许多学科的最新研究成果而形成独具特色的研究分支。勿容置疑,数据挖掘研究和应用具有很大的挑战性。象其它新技术的发展历程一样,数据挖掘也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。从目前的现状看,大部分学者认为数
27、据挖掘的研究仍然处于广泛研究和探索阶段。一方面,数据挖掘的概念已经被广泛接受。在理论上,一批具有挑战性和前瞻性的问题被提出,吸引越来越多的研究者。数据挖掘的概念从二十世纪八十年代被提出后,其经济价值已经显现出来,而且被众多商业厂家所推崇,形成初步的市场。另一方面,目前的数据挖掘系统研制也决不是象一些商家为了宣传自己商品所说的那样神奇,仍有许多问题需要研究和探索。把目前数据挖掘的研究现状描述为鸿沟(Chasm)阶段是比较准确的1。所谓Chasm阶段是说数据挖掘技术在广泛被应用之前仍有许多“鸿沟”需要攀越。例如,就目前商家推出的数据挖掘系统而言,它们都是一些通用的辅助开发工具。这些工具只能给那些熟
28、悉数据挖掘技术的专家或高级技术人员使用,仅对专业人员开发对应的应用起到加速或横向解决方案(Horizontal Solution)的作用。但是,数据挖掘来自于商业应用,而商业应用又会由于应用的领域不同而存在很大差异。大多数学者赞成这样的观点:数据挖掘在商业上的成功不能期望通用的辅助开发工具,而应该是数据挖掘概念与特定领域商业逻辑相结合的纵向解决方案(Vertical Solution)1 。 分析目前的研究和应用现状,数据挖掘在如下几个方面需要重点开展工作:n 数据挖掘技术与特定商业逻辑的平滑集成问题。它包括领域知识对行业或企业知识挖掘的约束与指导、商业逻辑有机嵌入数据挖掘过程等关键课题。n
29、数据挖掘技术与特定数据存储类型的适应问题。不同的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等。指望一种通用的应用模式适合所有的数据存储方式下发现有效知识是不现实的。因此,针对不同数据存储类型的特点,进行针对性研究是目前流行而且也是将来一段时间所必须面对的问题。n 数据挖掘系统的构架与交互式挖掘技术。虽然经过多年的探索,数据挖掘系统的基本构架和过程已经趋于明朗,但是受应用领域、挖掘数据类型以及知识表达模式等的影响,在具体的实现机制、技术路线以及各阶段或部件(如数据清洗、知识形成、模式评估等)的功能定位等方面仍需细化和深入研究。由于数据挖掘是在大量的源数据集中发现潜在的、事先并
30、不知道的知识,因此和用户交互式进行探索性挖掘是必然的。这种交互可能发生在数据挖掘的各个不同阶段,从不同角度或不同粒度进行交互。所以良好的交互式挖掘(Interaction Mining)也是数据挖掘系统成功的前提。n 数据挖掘语言与系统的可视化问题。对OLTP应用来说,结构化查询语言SQL已经得到充分发展,并成为支持数据库应用的重要基石。但是,对于数据挖掘技术而言,由于诞生的较晚,加之它相比OLTP应用的复杂性,开发相应的数据挖掘操作语言仍然是一件极赋挑战性的工作。可视化要求已经成为目前信息处理系统的必不可少技术。对于一个数据挖掘系统来说,它更是重要的。可视化挖掘除了要和良好的交互式技术结合外
31、,还必须在挖掘结果或知识模式的可视化、挖掘过程的可视化以及可视化指导用户挖掘等方面进行探索和实践。n 数据挖掘理论与算法研究。经过十几年的研究,数据挖掘已经在继承和发展相关基础学科(如机器学习、统计学等)已有成果方面取得了可喜的进步,探索出了许多独具特色的理论体系。但是,这决不意味着挖掘理论的探索已经结束,恰恰相反它留给了研究者丰富的理论课题。一方面,在这些大的理论框架下有许多面向实际应用目标的挖掘理论等待探索和创新。另一方面,随着数据挖掘技术本身和相关技术的发展,新的挖掘理论的诞生是必然的,而且可能对特定的应用产生推动作用。新理论的发展必然促进新的挖掘算法的产生,这些算法可能扩展挖掘的有效性
32、,如针对数据挖掘的某些阶段、某些数据类型、大容量源数据集等更有效;可能提高挖掘的精度或效率;可能融合特定的应用目标,如CRM、电子商务等。因此,对数据挖掘理论和算法的探讨将是长期而艰巨的任务。从上面的叙述,可以看出数据挖掘研究和探索的内容是及其丰富和具有挑战性的。我们正是在这样的背景下,在以往的研究和各类基金的支持下,开展相关研究工作的。1.2 拟解决的问题作为博士论文,我们在收集和整理大量的相关资料,弄清相关的理论、方法、算法、体系结构(原型系统)等基础上,集中选取了下面几个问题开展相关工作:n 数据挖掘过程和系统构架研究。在分析现有的数据挖掘系统(原型系统)的体系结构基础上,系统化研究了数
33、据挖掘系统的基本过程和功能部件。这些研究包括从数据挖掘的基本过程来探讨系统应具备的主要功能部件及其相互联系;不同的源数据类型对数据挖掘系统的功能部件要求;不同的应用目标对数据挖掘系统的功能部件要求;数据挖掘系统的主要功能部件的实现机制等。n 数据挖掘理论探索。如前所述,数据挖掘已经建立了许多独具特色的挖掘理论体系,但是不论是从应用范围、有效性以及适应性等方面仍需新的挖掘理论的探索。因此,本文对关联规则(Association Rule)挖掘理论和模型进行了研究,建立了项目序列集格空间和基于项目序列集操作的关联规则挖掘模型等。n 关联规则挖掘算法设计。关联规则挖掘是数据挖掘中研究较早而且至今仍最
34、活跃的研究分支之一。影响关联规则的挖掘效率的因素主要有数据库扫描的I/O代价、内存的需求、CPU的时间花费等。目前的关联规则挖掘算法仍然需要在这些方面加以创新或改进。因此,我们选取了关联规则挖掘算法进行了集中研究和实现,并通过系列的算法设计和实现来验证我们新的挖掘理论和积累研制数据挖掘系统的经验。1.3 创新性工作 本文的创新性工作集中在数据挖掘理论和关联规则挖掘算法设计两个方面。1.3.1 数据挖掘理论研究 大多数文献中使用的项目集(Itemset)是普通的集合概念1,2。我们使用术语“项目序列(Itemsequence)”来替代其它文献中出现的“项目集”。所谓项目序列是指项目集中的元素是按
35、特定标准(如出现次数、字典排序)进行有序排列的。因此,我们首次引入的项目序列集(Set of Itemsequences)概念可以用来表示一类特定的项目序列集合(如频繁项目序列集)。本文主要的理论研究和成果为:(1)基于项目序列集操作的挖掘模型我们建立了项目序列集的代数空间描述,并探讨了在这个空间上的基本操作算子。在此基础上,讨论了基于项目序列集操作的数据挖掘模型(详见第4章)。(2)约束条件下的数据挖掘理论毫无疑问,引进约束条件可以加速数据挖掘的过程。但是,约束条件的引入,必须解决诸如适合数据挖掘的约束条件的形式化表示以及约束条件在数据挖掘特定阶段的使用方式等。本文针对时态约束条件下的数据挖
36、掘理论问题进行了探索。在时态区间代数空间上定义了两个新的时态区间变量操作(时态交T和时态并UT)。基于这样的时态约束条件下的数据挖掘理论框架,我们可以扩展数据挖掘工作到包括数据过滤(Data filtrating)、时态区间合并等数据预处理在内的更广泛的范畴中去(详见第5章)。(3)数据分割下的数据挖掘理论随着数据库容量的增大,使得通过对源数据集的分割来处理大容量数据库的数据挖掘问题成为必要。本文就数据分割下的数据挖掘问题进行了讨论,引入局部频繁项目序列集(Local Frequent Set of Itemsequences)和全局项目序列集(Global Frequent Set of I
37、temsequences)等概念,并解决了局部频繁项目序列集和全局频繁项目序列集转换等问题(详见第6章)。1.3.2 关联规则挖掘算法设计与实现 把上面的数据挖掘理论应用到关联规则的发现中,我们完成了相应算法的设计,并且通过理论分析和实验模拟讨论了算法的性能。第4章介绍了基于项目序列集操作的ISS-DM算法。它是一个一次数据库扫描并且不使用侯选集的高效算法。为了增强对大容量数据库挖掘的适应性和可用性,第5章设计了时态约束下的TISS-DM算法。它是对ISS-DM算法的改进,实验证明它具有较好的数据过滤和区间合并效率,因而能在同样的处理环境下挖掘更大容量的数据库(比ISS-DM)。第6章提出了另
38、一个ISS-DM的改进算法PISS-DM。它通过对数据库的分割,减少了对内存和CPU等系统资源的占用,而且可以在两次数据库扫描的情况下完成挖掘工作。1.4 本章小节本章介绍了数据挖掘研究的意义和技术背景、论文的选题依据、研究背景以及我们的主要研究内容等。数据挖掘作为二十世纪信息处理的骨干技术之一,正以一种全新的概念改变着我们利用数据的方式。经过十几年的研究和实践,数据挖掘技术已经融合了许多学科的最新研究成果而形成独具特色的研究分支。目前的数据挖掘研究正处于蓬勃发展时期,有许多具有挑战性的课题被提出。数据挖掘的研究内容是极其丰富的。作为博士论文,我们在充分了解基本概念和主要技术发展状况的前提下,
39、有选择地进行了重点研究。这些研究包括数据挖掘系统的体系结构、关联规则挖掘理论和算法等。49-第2章 数据挖掘技术第2章 数据挖掘技术数据挖掘作为一个只有十几年研究历史的较新研究领域,许多概念和技术是逐步发展起来的。因此,本章将系统地介绍相关的概念和技术,并力求从不同视点和流派来阐述数据挖掘的重要概念、发展和应用情况。在2.1节,我们介绍了数据挖掘技术产生的商业和技术背景;在2.2节,我们从不同视点阐述了数据挖掘的概念和主要理论构架;在2.3节,我们从多种角度对数据挖掘系统的分类问题进行了概括;在2.4节,我们从知识表示模式角度出发,归纳了主要的数据挖掘技术及其研究成果; 2.5节对不同源数据组
40、织形式下的数据挖掘技术的特点和策略进行了剖析;2.6节分析了数据挖掘技术的应用现状和发展趋势。2.1 数据挖掘技术的产生背景2.1.1 数据挖掘技术的商业需求分析数据挖掘之所以吸引专家学者的研究兴趣和引起商业厂家的广泛关注,主要在于大型数据系统的广泛使用和把数据转换成有用知识的迫切需要。60年代,为了适应信息的电子化要求,信息技术一直从简单的文件处理系统向有效的数据库系统变革。70年代,数据库系统的三个主要模式层次、网络和关系型数据库的研究和开发取得了重要进展。80年代,关系型数据库及其相关的数据模型工具、数据索引及数据组织技术被广泛采用,并且成为了整个数据库市场的主导。80年代中期开始,关系
41、数据库技术和新型技术的结合成为数据库研究和开发的重要标志。从数据模型上看,诸如扩展关系、面向对象、对象-关系(Object-Relation)以及演绎模型等被应用到数据库系统中。从应用的数据类型上看,包括空间、时态、多媒体以及WEB等新型数据成为数据库应用的重要数据源。同时,事务数据库(Transaction Database)、主动数据库(Active Database)、知识库(Knowledge Base)、办公信息库(Information Base)等技术也得到蓬勃发展。从数据的分布角度看,分布式数据库(Distributed Database)及其透明性、并发控制、并行处理等成为必
42、须面对的课题。进入90年代,分布式数据库理论上趋于成熟,分布式数据库技术得到了广泛应用。目前,由于各种新型技术与数据库技术的有机结合,使数据库领域中的新内容、新应用、新技术层出不穷,形成了庞大的数据库家族。但是,这些数据库的应用都是以实时查询处理技术为基础的。从本质上说,查询是对数据库的被动使用。由于简单查询只是数据库内容的选择性输出,因此它和人们期望的分析预测、决策支持等高级应用仍有很大距离。新的需求推动新的技术的诞生。数据挖掘的灵魂是深层次的数据分析方法。数据分析是科学研究的基础,许多科学研究都是建立在数据收集和分析基础上的。同时在目前的商业活动中,数据分析总是和一些特殊的人群的高智商行为
43、联系起来,因为并不是每个平常人都能从过去的销售情况预测将来发展趋势或作出正确决策的。但是,随着一个企业或行业业务数据的不断积累,特别是由于数据库的普及,人工去整理和理解如此大的数据源已经存在效率、准确性等问题。因此,探讨自动化的数据分析技术,为企业提供能带来商业利润的决策信息而成为必然。事实上,数据(Data)、信息(Information)和知识(Knowledge)可以看作是广义数据表现的不同形式3。毫不夸张地说,人们对于数据的拥有欲是贪婪的,特别是计算机存储技术和网络技术的发展加速了人们收集数据的范围和容量。这种贪婪的结果导致了“数据丰富而信息贫乏(Data Rich & Informa
44、tion Poor)”现象的产生。数据库是目前组织和存储数据的最有效方法之一,但是面对日益膨胀的数据,数据库查询技术已表现出它的局限性。直观上说,信息或称有效信息是指对人们有帮助的数据。例如,在现实社会中,如果人均日阅读时间在30分钟的话,一个人一天最快只能浏览一份20版左右的报纸。如果你订阅了100份报纸,其实你每天也不过只阅读了一份而已。面对计算机中的海量的数据,人们也处于同样的尴尬境地,缺乏获取有效信息的手段。知识是一种概念、规则、模式和规律等。它不会象数据或信息那么具体,但是它却是人们一直不懈追求的目标。事实上。在我们的生活中,人们只是把数据看作是形成知识的源泉。我们是通过正面的或反面的数据或信息来形成和验证知识的,同时又不断地利用知识来获得新的信息。因此,随着数据的膨胀和技术环境的进步,人们对联机决策和分析等高级信息处理的要求越来越迫切。在强大的商业需求的驱动下,商家们开始注意到有效地解决大容量数据的利用问题具有巨大的商机;学者们开始思考如何从大容量数据集中获取有用信息和知识的方法。因此,在二十世纪八十年代后期,产生了数据仓库和数据挖掘等信息处理思想。2.1.2 数据挖掘产生的技术背景分析任何技术的产生总是有它的技术背景的。数据挖掘技术的提出和普遍接受是由于计算机及其相关技术的发展为其提供了研究和应用的技术基础。归