《第5章 数据开采技术.ppt》由会员分享,可在线阅读,更多相关《第5章 数据开采技术.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第第5 5章数据开采技术章数据开采技术数据开采技术研究背景及现状数据开采技术研究背景及现状5.1商业领域(比如大型超市)对大量条形码的普遍使用,使得每天都积累大量的数据;Internet的迅猛发展,使得网上各种资源信息异常丰富;证券市场的逐步规范,使得日交易行情数据已达到几十兆,甚至几百兆。但是大量信息给人们带来方便的同时,也带来了一大堆问题:第一,信息过量,难以消化;第二,信息分散,难以整合;第三,信息形式不一致,难以统一。人们开始提出一个新的口号“要学会抛弃信息”。面对这些“堆积如山”的信息集合,人们希望能够对其进行更高层次的分析,以便更有效地利用这些信息。目前的数据库系统可以高效地实现数
2、据录入、查询、统计等,但无法发现数据中存在的关系和规则;无法根据现有数据预测未来的发展趋势,缺乏挖掘数据背后隐藏的知识手段,导致“数据爆炸,知识贫乏”的现象。面对这一挑战,数据挖掘应运而生。十多年来,零售业和证券业积累了大量的客户交易数据和行情数据,通过对这些数据的挖掘分析,发现一些有助于投资的信息,提供给客户相应的服务,已成为有竞争优势的一个重要手段。数据挖掘的出现实现了这个目标,但是国内的这两个行业仍停留在较落后的水平。中国的这些行业与国外相比主要是服务。国内的行业对客户的了解只是表面上的,不能够深入了解客户需求,长期以来实行无差别的服务策略,不能够抓住真正的赢利客户,以进行区别对待,为客
3、户提供一对一的服务。随着数据挖掘的不断完善,完全可以利用这些数据为决策提供支持。通过数据挖掘能自动处理数据仓库中的海量数据,抽象出具有意义的模式,找出人们所需的目标知识。同时数据挖掘应用范围非常广泛,用于零售、银行、金融、保险和电信等诸多行业。在信息化过程中有很大的应用背景,所以进行数据挖掘的研究具有重大的理论意义和实践意义。使用数据挖掘技术的机构由于发现了分析人员发现不了的隐含的关系和模式,出人意料但有价值的事实、趋势、例外和异常等,从而对各自的行业有了更深的了解。这表明虽然数据挖掘是一门新兴的学科,但已在经济系统中显出巨大的潜在价值。数据库中知识发现(数据库中知识发现(knowledge
4、discovery in database,KDD)一词首先出现在)一词首先出现在1989年年8月在美国底特律召开的月在美国底特律召开的第第11届国际人工智能会议(届国际人工智能会议(The 11th International Joint Conference on AI)。)。1999年,亚太地区在北京召开了第三届年,亚太地区在北京召开了第三届PAKDD会议,收到会议,收到158篇论文,电子工程师学会(篇论文,电子工程师学会(Institute of Electrical and Electronic Engineers,IEEE)的的Knowledge and Data Engineer
5、ing会刊率先在会刊率先在1993年出版了年出版了KDD技术专刊。并技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到数据挖掘和知识发现列为专题讨论,甚至到了脍炙人口的程度。到目前为止,由美国人工智能协会主办的目前为止,由美国人工智能协会主办的KDD国际研讨会已召开了国际研讨会已召开了多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐多次,规模由原来的专题讨论会发展到国际学术大会;研究重点逐渐从发现方法的研究转向实际的系统应用,注重发现多种策略和技渐从
6、发现方法的研究转向实际的系统应用,注重发现多种策略和技术的集成,以及多种学科之间的渗透。术的集成,以及多种学科之间的渗透。数据挖掘技术一开始就是面向应用的,它不仅是面向特定数据库的简单检索、查询调用,而且要对这些数据进行微观、中观及宏观的统计分析、综合、推理,以指导实际问题的求解,企图发现事件间的相互关联甚至用已有的数据对未来的活动进行预测。对于数据挖掘技术的研究,在国外已经有好多年的历史了。数据挖掘技术及相关的决策支持系统发展很快,已经快速、直接地给商业界、公共服务行业等众多行业带来了令人吃惊的利润。并且有很多学校和科研机构也正投入大量资金,进行数据挖掘技术的进一步开发和深入研究。国内:最近
7、几年,国内也有相当多的数据挖掘和知识发现方面的研究成果,许多学术会议上都设有专题进行学术交流。许多科研单位和高等院校竞相开展数据挖掘的基础理论及应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中北京系统工程研究所对模糊方法在知识发现中的应用进行了深入研究;北京大学在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化改造;南京大学、四川联合大学和上海交通大学等单位探讨研究非结构化数据的知识发现以及Web数据挖掘。但是国内与国外相比,对数据挖掘领域研究仍处于初期。绝大
8、多数工作集中于局部算法设计,有的开始软件的开发,但还是处在业务数据转移和建立数据仓库的初级阶段;进行综合的系统集成设计却寥寥无几。由于技术核心的欠缺,使得数据挖掘在国内一些领域只是初步开始应用。在零售业、证券业等行业开始有研究,只是提出一些应用构思和解决方案,实现系统方面仍处于初级阶段;证券公司开始数据仓库建设阶段,但还没有对数据进行深一步挖掘和实证研究。所以国内虽然实施了数据挖掘,仍存在一些问题,结果不尽如人意。其原因如下。(1)进行数据挖掘研究一定要先确认为什么要投资数据挖掘。(2)明确要用数据挖掘解决什么问题。(3)数据挖掘达到什么目的可以告一段落,如何评价成功与否。数据开采(data
9、mining),又译作数据挖掘、数据采掘,还有的译成数据发掘。一种比较公认的数据开采定义是W.J.Frawley、G.Piatetsky、Shapiro 等人提出的:数据开采就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念(concepts)、规则(rules)、规律(regularities)、模式(patterns)等形式。这种定义把数据开采的对象定义为数据库。而更广义的说法是,数据开采意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。数据开采的对象不仅是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,例如WWW
10、信息资源。与知识发现的区别:数据开采的任务是发现可以理解的知识,而机器学习关心的是提高系统的性能,因此训练神经网络来控制一根倒立棒是一种机器学习过程,但不是数据开采;数据开采的对象是大型的数据库,一般来说机器学习处理的数据集要小得多,因此效率问题对数据开采是至关重要的。数据开采技术基本概念数据开采技术基本概念5.2数据开采处于影响空间中,从中可以看出数据开采在整个决策支持中所处的重要地位。决策支持空间处理基于关键字(key based)的决策查询 处理诸如“某一商场在某月某种商品的销售额是多少?处理逻辑性质的决策支持 负责回答某种变化的过程和速率问题 数据开采的目的在传统的决策支持系统中,知识
11、库中的知识和规则是由专家或程序人员建立的,是由外部输入的。而数据开采的任务是发现大量数据中尚未被发现的知识,是从系统内部自动获取知识的过程。对于那些决策者明确了解的信息,可以用查询、联机分析处理(OLAP)或其他工具直接获取,比如“列出各子公司在上个月的销售情况”。而另外一些隐藏在大量数据中的关系、趋势,即使是管理这些数据的专家也是没有能力发现的,这些信息对于决策可能又是至关重要的,现在让数据开采来解决这类问题吧!数据开采发现的知识通常是用以下形式表示:概念(concepts),规则(rules),规律(regularities),模式(patterns),约束(constraints)和可视
12、化(visualizations)。这些知识可以直接提供给决策者,用以辅助决策过程;或者提供给领域专家,修正专家已有的知识体系;也可以作为新的知识转存到应用系统的知识存储机构中,比如专家系统(expert system)、规则库(rule base)等。数据开采的过程根据发现知识的种类根据采用的技术分类 人工神经网络 决策树 遗传算法最近邻技术可视化规则归纳数据开采的分类总结(summarization)规则开采、特征(characterization)规则开采、关联(association)规则开采、分类(classification)规则开采、聚类(clustering)规则开采、趋势(t
13、rend)分析、偏差(deviation)分析和模式(pattern analysis)分析等最后均走上数据开采的道路DMKD的研究主的3个技术支柱数据库人工智能数理统计查询是数据库的奴隶,发查询是数据库的奴隶,发现才是数据库的主人现才是数据库的主人知识获取、知识表示、基知识获取、知识表示、基本常识成为三大难题本常识成为三大难题进入进入DMKD行业行业 数据开采的内容和本质数据开采的内容和本质数据仓库作为一种新型的数据存储地,为数据开采提供了新的支持平台。可以预见,数据仓库以其内在的对决策的支持能力,将会成为数据开采的主战场。数据仓库的发展不仅仅是为了数据开采开辟了新的空间,更对数据开采技术提
14、出了新的要求。数据仓库环境下的数据开采基于数据仓库的数据开采技术2规 模历史数据数据集成和综合性查询支持数据仓库环境中的数据开采的新特点:总结:总结:数据仓库在纵向和横向都为数据开采提供了更广阔的数据仓库在纵向和横向都为数据开采提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作,数据开采面对的是经初步加工的数据,使得数理等工作,数据开采面对的是经初步加工的数据,使得数据开采更专注于知识的发现;另一方面,由于数据仓库所据开采更专注于知识的发现;另一方面,由于数据仓库所具有的新特点,又对数据开采技术提出了更高的要求。可具有的新
15、特点,又对数据开采技术提出了更高的要求。可以说,数据开采技术要充分发挥潜力,就必须和数据仓库以说,数据开采技术要充分发挥潜力,就必须和数据仓库的发展结合起来。的发展结合起来。数据开采方法分类的效果一般和数据的特点有关。有的数据噪声大;有的有缺值;有的分布稀疏;有的字段或属性间相关性强;有的属性是离散的,而有的是连续值或混合式的,目前普遍认为不存在某种方法能适合于各种特点的数据。目的目的:学会一个分类函数或分类模型(也常称为分类器),该模型能把数据库中的数据映射到给定类别中的某一个分类器评价或比较尺度:预测准确度 计算复杂度 模型描述的简洁度 定义:聚类是把一组个体相似性归成若干类别,即“物以类
16、聚”。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能的大。方法:统计方法、机器学习方法、神经网络方法和面向数据库的方法 主要研究基于主要研究基于几何距离的聚类几何距离的聚类在机器学习中聚在机器学习中聚类称为无监督或类称为无监督或无教师归纳无教师归纳 一个6结点的前馈神经网络是一种复杂的分类和回归算法,常被称做“黑箱”神经网络一个输入结点的运算F(I)=w1x1+w2x2+w3x3+w4x4+w5x5,而F(I)是对F(I)的一次非线性转换。两种最常使用的前馈神经网络是多层感知器(MLPS)和径向基函数(radial basis function,RBF)网
17、络。这两者之间唯一的根本差异是在隐藏层结合网络前面的层的数据时,MLPS用内部的产品,而RBF却用欧几里的距离 神经网络方法的优点和缺点:神经网络因为不能解释发现的关系,常被看做黑箱。它只能输入数字数据,这就意味着非数字数据需要转换。另外,输入还需要归一为0至1之间。神经网络通过很好的训练能快速预测新的案例,训练阶段是非常精密的,需要选择合适的数字和控制过度匹配。神经网络的一个缺点是它永远不是非常精确,即使永远训练。关联规则挖掘算法可以分解为两个子问题。(1)找到所有支持度大于最小支持度的项集(itemset),这些项集称为频集(frequent itemset)。(2)使用第1步找到的频集产
18、生期望的关联规则定义:所谓决策树就是一个类似流程图的树状结构,其中树的每个内定义:所谓决策树就是一个类似流程图的树状结构,其中树的每个内部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结部结点代表对一个属性(取值)的测试,其分支就代表测试的每个结果;而树的每个叶结点就代表一个类型。树的最高层结点就是根结点果;而树的每个叶结点就代表一个类型。树的最高层结点就是根结点基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递基本决策树算法就是一个贪心算法。它采用自上而下、分而制之的递归方式来构造一个决策树。决策树所表示的分类知识可以被抽取出来归方式来构造一个决策树。决策树所表示的分类知
19、识可以被抽取出来并可用并可用ifthen分类规则形式加以表示。从决策树的根结点到任一个分类规则形式加以表示。从决策树的根结点到任一个叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条叶结点所形成的一条路径就构成了一条分类规则。沿着决策树的一条路径所形成的属性路径所形成的属性值偶对就构成了分类规则条件部分(值偶对就构成了分类规则条件部分(if部分)部分)中的一个合取项;叶结点所标记的类别就构成了规则的结论内容中的一个合取项;叶结点所标记的类别就构成了规则的结论内容(then部分)。部分)。ifthen分类规则表达方式易于被人理解,且决策树分类规则表达方式易于被人理解,且决策树较大时,较
20、大时,ifthen规则表示形式的优势就更加突出。规则表示形式的优势就更加突出。定义:定义:数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据开采技术被称为数据汇总(data generalization)。两种方法:两种方法:数有数据立方体和面向属性数有数据立方体和面向属性数据立方体数据立方体(多维数据库多维数据库)方法的主要思想是将那些经常查询、代价高方法的主要思想是将那些经常查询、代价高昂的运算昂的运算,如如Count、Sun、Average、Max和和Min等汇总函数具体化,等汇总函数具体化,并存储在一个多维数据库中并存储在一个多维数据库中,为决
21、策支持、知识发现及其他应用服务。为决策支持、知识发现及其他应用服务。面向属性的抽取方法用一种类面向属性的抽取方法用一种类SQL数据开采查询语言表达查询要求,数据开采查询语言表达查询要求,收集相关数据,并利用属性删除、概念层次树、门槛控制、数量传播收集相关数据,并利用属性删除、概念层次树、门槛控制、数量传播及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可以将及集合函数等技术进行数据汇总。汇总数据用汇总关系表示,可以将数据转化为不同类型的知识;或将其映射成不同的表数据转化为不同类型的知识;或将其映射成不同的表,并从中抽取特征、并从中抽取特征、判别式和分类等相关规则。判别式和分类等相关规则。
22、属性属性city的概念层次树的概念层次树面向属性的树提升方法主要是对目标类所有元组的属性值由低到高提升,使原来若干属性值不同的元组成为相同元组,进行合并,直到全部元组不超过最大规则数,再将其转化为一阶谓词逻辑表示的规则。空间数据开采技术帮助人们从庞大的空间数据中抽取有用信息 方法:归纳方法1 聚集方法2 统计信息网格算法3 空间聚集和特征邻近关系采掘41.粗集粗集(rough set)方法方法在数据库中将元素看成对象在数据库中将元素看成对象,将列元素看成属性将列元素看成属性(分为条件属性和决策属性分为条件属性和决策属性)。等价关系。等价关系R定义为不同对象在某个或几个属性上取值相同定义为不同对
23、象在某个或几个属性上取值相同,满足等价关系的对象组成的集合被称满足等价关系的对象组成的集合被称为等价关系为等价关系R的等价类。的等价类。2.遗传算法遗传算法模拟生物进化过程的算法模拟生物进化过程的算法,由繁殖由繁殖(选择选择)、交叉、交叉(重组重组)、变异、变异(突变突变)3个基本算子组成。个基本算子组成。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。遗传算法已在优化计算、分类、机器学习等方面发挥了显著作用。3.公式发现公式发现在工程和科学数据库中在工程和科学数据库中,对若干数据项进行一定的数学运算对若干数据项进行一定的数学运算,求得相应的数学公式。求得相应的数学公式。BACON发
24、现系统完成了对物理学大量定律的重新发现。发现系统完成了对物理学大量定律的重新发现。4.统计分析方法统计分析方法在数据库字段项之间存在两种关系:在数据库字段项之间存在两种关系:函数关系和相关关系函数关系和相关关系,对它们的分析可采用回归分对它们的分析可采用回归分析、相关分析、主成分分析等方法。析、相关分析、主成分分析等方法。5.模糊集合方法模糊集合方法利用模糊集合理论利用模糊集合理论,对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分对实际问题进行模糊判断、模糊决策、模糊模式识别、模糊簇聚分析。系统的复杂性越高析。系统的复杂性越高,精确能力就越低精确能力就越低,模糊性就越强,这是模糊性就
25、越强,这是Zadeh总结出的互克性原总结出的互克性原理。理。6.可视化技术可视化技术拓宽了传统的图表功能拓宽了传统的图表功能,使用户对数据剖析更清楚。使用户对数据剖析更清楚。另外,还有归纳逻辑程序另外,还有归纳逻辑程序(inductive logic programming)、Bayesian网络等方法。网络等方法。云的概念经常用图形表示,云的几何形状对理解定性和定量之间的转换很有帮助。云由相当多的云滴组成,云的整体反映一个定性概念(即语言值),对应的数值域作为自变量。“年龄”的几个定性概念和数值间的转换数据开采云模型方法5.4发现状态空间是一个三维立体空间,是发现系统实施多种发现算法的运作空
26、间。在一发现状态空间是一个三维立体空间,是发现系统实施多种发现算法的运作空间。在一个二维的平面基底个二维的平面基底知识基上逐步抽象。知识基是原始数据库经数据汇集处理后得知识基上逐步抽象。知识基是原始数据库经数据汇集处理后得到的二维表。它汇集了原始数据库中发现任务相关的所有数据的总体特征,是知识发到的二维表。它汇集了原始数据库中发现任务相关的所有数据的总体特征,是知识发现状态空间的基底,也可以认为是最初始的知识模板。现状态空间的基底,也可以认为是最初始的知识模板。在发现状态空间内进行的多种知识汇集操作分成在发现状态空间内进行的多种知识汇集操作分成3个方向:个方向:面向属性的操作、面向宏元面向属性
27、的操作、面向宏元组的操作和面向整个模板的操作。组的操作和面向整个模板的操作。在在OA方向(方向(attribute oriented)的操作是面向属性的操作,是对属性之间关系的)的操作是面向属性的操作,是对属性之间关系的认识和发现活动。认识和发现活动。在在OM方向(方向(macro tuples oriented)的操作是面向宏元组的操作,是微观到宏观)的操作是面向宏元组的操作,是微观到宏观发现知识的过程;是一块知识模板上升到抽象级别更高的另一块模板;是以归纳为核发现知识的过程;是一块知识模板上升到抽象级别更高的另一块模板;是以归纳为核心的知识发现活动。心的知识发现活动。在在OT方向(方向(o
28、riented template)上的操作,反映了知识模板由微观向宏观的跃升,)上的操作,反映了知识模板由微观向宏观的跃升,主要操作有概念树的生成和调节、跳跃步长的确定、规则置信度阈值的调节、域间抽主要操作有概念树的生成和调节、跳跃步长的确定、规则置信度阈值的调节、域间抽象层次适配性检查、概念提升、发现知识的验证和评价种。象层次适配性检查、概念提升、发现知识的验证和评价种。将基于云模型的泛化方法与将基于云模型的泛化方法与Apriori算法结合起来,从空间数据库中算法结合起来,从空间数据库中发掘关联规则,实验显示了其有效性、高效性和灵活性。发掘关联规则,实验显示了其有效性、高效性和灵活性。用著名
29、的用著名的Apriori算法作为发掘关联规则的基本算法,并把它与基于算法作为发掘关联规则的基本算法,并把它与基于云模型的属性普遍化方法结合起来,在任意概念层次上发现关联规则。云模型的属性普遍化方法结合起来,在任意概念层次上发现关联规则。例:关联规则的可视化(如图)(关于人均年收入的关联规则)例:关联规则的可视化(如图)(关于人均年收入的关联规则)结果表明了在发掘关联规则的预处理中语言云模型的有效性。基于云模型的普遍化方法能较好地模拟人类的思维,使得发掘出的知识具有稳健性。如果地势低,那么公路网密度高。如果地势低,那么公路网密度高。1如果地势高,那么公路网密度低。如果地势高,那么公路网密度低。2
30、如果地势中且位置为西北,那么公路网密度低如果地势中且位置为西北,那么公路网密度低3如果地势中且位置为北部,那么公路网密度中如果地势中且位置为北部,那么公路网密度中4数据仓库的基本特征:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间而变的 数据仓库作为决策支持系统的一种有效可行的体系化解决方案,包括 数据仓库技术(data warehouse,DW)、联机分析技术(online analytical processing,OLAP)数据开采技术(data mining,DM)模糊数据开采方法模糊数据开采方法5.5模式发现 在数据仓库的全体数据记录上,在数据仓库的全体数据记录
31、上,建立带分类的样本集建立带分类的样本集U 建立模数相似关系建立模数相似关系 预测求各模式平均指标求各模式平均指标 预测预测 数据开采与DBMS和联机分析处理的区别与联系 数据开采的两个层次:1、在较浅的层次上利用现有数据库管理系统的查询检索、报表功能与 多维分析、统计分析方法相结合,进行所谓联机分析处理(online analytical processing,OLAP),从而得出可供决策参考的统计分析数据。2、在较深层次上,若是要求从数据库或大量数据记录中发现潜在的规律性,或隐含的模式等前所不知而最终可以理解并加以利用的知识。A在数据开采这一新概念产生之前及发展初期,不属于数据开采的范畴。
32、但是,就决策支持的需要而言,二者可起到相辅相成的作用。广义地理解,也可以把A视为数据开采的一种方法。尽管如此,二者解答的问题还是有所不同 数据开采的智能方法数据开采的智能方法5.65个步骤:(1)选择和准备待开采的数据。(2)对待开采数据进行预处理,主要是通过净化(排除干扰)、减缩、转换、群聚、分类等手段降低数据的复杂性,并且重新加以组织,即组成“专业化”的、可操作的数据仓库(data warehouse)。(3)研究开发一种或多种数据开采工具,例如,IBM的IDM和SGI的Mine Set等。(4)用数据开采工具来发现未知的知识。(5)运用所发现的知识于决策支持,达到事业和企业单位的特定目标
33、。数据开采的方法和实施过程数据开采的方法和实施过程数据开采的基本过程计算智能1、神经计算2、演化计算3、模糊计算或模糊推理CI特点特点:它不需要建立问题本身的精确(数字或逻辑)模型,:它不需要建立问题本身的精确(数字或逻辑)模型,也不依赖于知识表示,而是直接对输入数据进行处理得出结果也不依赖于知识表示,而是直接对输入数据进行处理得出结果 数据开采工具及发展方向5.7(1)通用单任务类通用单任务类(2)通用多任务类通用多任务类(3)专用领域类专用领域类根据应用领域根据所采用的技术根据所采用的技术(1)基于规则和决策树的工具。基于规则和决策树的工具。(2)基于神经元网络的工具基于神经元网络的工具(
34、3)数据可视化方法数据可视化方法(4)模糊发现方法模糊发现方法5)统计方法统计方法(6)综合多方法综合多方法1.处理不同类型数据处理不同类型数据2.数据快照和时间戳方法数据快照和时间戳方法3.数据开采算法的有效性和可测性数据开采算法的有效性和可测性4.交互性用户界面交互性用户界面5.在多抽象层上交互式开采知识在多抽象层上交互式开采知识6.从不同数据源开采信息从不同数据源开采信息7.私有性和安全性私有性和安全性8.和其他系统的集成和其他系统的集成9.因特网上的知识发现因特网上的知识发现数据开采的发展方向SAS支持各层次用户(1)业务水平和数学水平可能比较一般的人(2)业务水平较高但数学水平一般,且没有时间和兴趣再钻研数学方法的人(3)有计算机和数学知识,但对业务的熟悉程度一般的人员(4)有很深计算机知识和数学造诣的数据分析专家,不仅要提供上述环境,而且还要提供实现各种算法的工具和开发平台。SAS的数据开采方法的数据开采方法5.8SAS研究所不仅有丰富的工具供用户选用,而且在多年的数据处理研究工作中积累了一套行之有效的数据开采方法论SEMMA sample数据取样explore数据特征探索、分析和预处理modify问题明确化、数据调整和技术选择model模型的研究和知识的发现assess模型和知识的综合解释和评价