《数据库新技术概述.ppt》由会员分享,可在线阅读,更多相关《数据库新技术概述.ppt(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据库原理及应用数据库新技术概述数据库新技术概述要点v 分布式数据库的概念、特点和体系结构v 面向对象数据库的理论和实现方法v 数据仓库技术v 数据挖掘技术数据库原理及应用n 整体系统方面l 相对传统数据库而言,在数据模型及其语言、事务处理与执行模型、数据库逻辑组织与物理存储等各个方面,都集成了新的技术、工具和机制。l 属于这类数据库新技术的有:面向对象数据库(Object-Orient Database),主动数据库(Active Database),实时数据库(Real-Time Database)。n 体系结构方面l 不改变数据库基本原理,而是在系统的体系结构方面采用和集成了新的技术。l
2、 属于这方面的数据库新技术有:分布式数据库(Distributed Database),并行数据库(Parallel Database),数据仓库(Data Warehouse)。新一代的数据库技术新一代的数据库技术数据库原理及应用n 应用方面l 以特定应用领域的需要为出发点,在某些方面采用和引入一些非传统数据库技术,加强系统对有关应用的支撑能力。l 属于这类的数据库新技术有:工程数据库(Engineering Database),支持CAD、CAM、CIMS(计算机集成制造系统)等应用领域;空间数据库(Spatial Database),包括地理数据库(Geographic Database
3、),支持地理信息系统(GIS)的应用;科学与统计数据库(Scientific and Statistic Database),支持统计数据中的应用;超文档数据库(Hyperdocument Database),包括多媒体数据库(Multimedia Database)。新一代的数据库技术(新一代的数据库技术(Cont.Cont.)数据库原理及应用n 分布式数据库研究始于20世纪70年代中期,是在集中式数据库基础上发展起来的,是数据库技术和网络技术相结合的产物。n 分布式数据库系统中数据库的数据存储在物理上分布在计算机网络的不同计算机中。n系统中每一台计算机被称为一个结点(或场地)。n在逻辑上是
4、属于同一个系统。n其一般结构如图10-1所示。图10-1 分布式数据库系统分布式数据库系统的概念分布式数据库系统的概念数据库原理及应用服务器1服务器2服务器3数据库1数据库2数据库3服务器4数据库4计算机网 络局部应用1局部应用3局部应用2局部应用4全局应用 图10-1 分布式数据库系统数据库原理及应用n 局部应用:通过客户机对本地服务器中的数据库执行某些应用。n 全局应用/分布应用:通过客户机对两个或两个以上节点中的的数据库执行某些应用。n 一种定义:分布式数据库是由一组数据组成的,这组数据分布在计算机网络的不同计算机上,网络中的每个节点具有独立处理能力(称为场地自治),可以执行局部应用;同
5、时,每个节点也能通过网络通信子系统执行全局应用。分布式数据库系统的概念分布式数据库系统的概念数据库原理及应用n 数据的物理分布性。n 数据的逻辑整体性。n 结点的自主性。n 其他特性:l 数据独立性:除逻辑独立性和物理独立性外,指分布透明性。l 适当增加数据冗余:不同节点存储同一数据不同副本提高可靠性,提高系统性能。l 全局的一致性和可恢复性。分布式数据库系统的特点分布式数据库系统的特点数据库原理及应用n 集中式数据库系统具有三级模式结构,分布式数据库系统应该由若干个局部数据模式加上一个全局数据模式构成。n 全局数据模式用来协调各局部数据模式,使之成为一个整体的模式结构。图10-2为分布式数据
6、库系统模式结构的一个参考模型。分布式数据库系统的体系结构分布式数据库系统的体系结构数据库原理及应用回顾集中式数据库数据抽象三个层次数据库原理及应用图10-2 分布式数据库系统的模式结构数据库原理及应用n 全局外模式:是全局应用的用户视图,是全局概念模式的子集。n 全局概念模式:是对分布式数据库中全体数据的逻辑结构和特征的描述,它不考虑数据分布的物理地点和分布细节,使得数据如同没有分布一样。通常采用关系模型。n 分片模式:每一个全局关系可以分为若干不相交的部分,每一部分称为一个片段(Fragment)。分片模式定义片段以及全局关系到片段的映像。这种映像是一对多的,一个全局关系可对应多个片段,而一
7、个片段指来自一个全局关系。体系结构(体系结构(Cont.Cont.)数据库原理及应用n 数据分片的方法有:l 水平分片:是指按一定的条件将关系按行(水平方向)分为若干个不相交的子集,每个子集为关系的一个片段。l 垂直分片:是指将关系按列(垂直方向)分为若干子集。垂直分片的诸片段必须能够重构原来的全局关系,即可以用连接的方法恢复原关系,因此垂直分片的诸片段通常都包含关系的码。l 导出分片:是指导出水平分片,即水平分片的条件不是本身属性的条件而是其他关系的属性的条件。l 混合分片:是指按上述三种分片方式得到的片段继续按另一种方式分片。如先水平分片再垂直分片,或先垂直分片再水平分片。体系结构(体系结
8、构(Cont.Cont.)数据库原理及应用n 不管使用哪种分片方式,都应保证满足以下条件:l 完备性l 不相交性l 可重构性n 分布模式:用来描述片段到不同结点间的映象,即各个片段的物理存放位置。体系结构(体系结构(Cont.Cont.)数据库原理及应用n 分布式数据库兴起与20世纪70年代,经过20多年的发展,分布式数据库系统已发展得相当成熟,其应用领域涵盖了OLTP应用、分布式计算、互联网上的应用以及数据仓库的应用中。n 随着计算机网络的广泛普及,新的应用都体现了开放性和分布性的特点。从简单的数据系统全球连网查询,逐渐地转向更具有分布式数据库系统特色的应用环境。n 因此,在当前基于网络,具
9、有分布性、开放性特点的应用环境下,分布式数据库系统将具有更好的发展前景和更广泛的应用领域。分布式数据库系统的发展前景分布式数据库系统的发展前景数据库原理及应用n 分布式数据库和网络中分散的多个集中式数据库在体系结构和应用程序的透明性上有什么不同?思考题思考题 数据库原理及应用n 数据库系统概念(原书第5版).Acraham Silberschatz 等著.杨冬青等译.机械工业出版社.2006.“第七部分 系统体系结构”(20、21、22章)P511,22章为“分布式数据库”P544。参考资料参考资料 数据库原理及应用n 面向对象的数据库系统(Object-Oriented Database S
10、ystem,简称OODBS)是数据库技术与面向对象程序设计方法相结合而产生的数据库系统。n 面向对象数据模型(Object-Oriented Data Model,简称O-O Data Model)是一种可扩充的数据模型。在该数据模型中,数据模型是可扩充的,即用户可根据需要,自己定义新的数据类型及相应的约束和操作。n 对象:客观世界中任何一个事物都可以看成一个对象(或者说,客观世界是由千千万万个对象组成的,它们之间通过一定的渠道相互联系)。如学校、一个班级、军队中的一个团、一个连都是对象。面向对象数据模型面向对象数据模型数据库原理及应用n 一个对象包括以下几个部分:l 属性集合l 方法集合l
11、消息集合n 属性集合:l 所有属性合起来构成了对象数据的数据结构。l 每一个对象都有自己的状态、组成和特性,称为对象的属性。属性可能是一个单值或值的集合,也可能是其他对象,即对象的嵌套,并且这种嵌套可以继续下去,从而组成各种复杂的对象。l 每个对象有惟一的对象标识(OID:Object Identity),一个对象的OID是独立于属性值的,在系统中是唯一不变的。面向对象数据模型面向对象数据模型(Cont.)(Cont.)数据库原理及应用n 方法集合l 方法是对象的行为特性。l 方法的定义包含两个部分:一是方法的接口,包括方法的名称、参数和结果类型;l 二是方法的实现部分,它是一段程序编码,以实
12、现方法的功能,即对象操作的算法。n 消息集合l 消息是对象向外提供的界面,消息由对象接收和响应。l 一条消息是一个执行方法的请求,必须包含所需要的数据。面向对象数据模型面向对象数据模型(Cont.)(Cont.)数据库原理及应用n 类和实例l 有一些对象是具有相同的结构和特性的。类代表了某一批对象的共性和特征。每个对象都属于一个类型,对象的类型就是类。l 类是对象的抽象,而对象是类的具体实(Instance)。一个类中的所有对象其特性必须相同,即具有相同的属性、响应相同的消息、使用相同的方法。n 类的继承l 一个新类可以通过对已有类进行修改或扩充某些特性来满足新类的要求,而这些特性并不和类的所
13、有成员相关。l 从一个类继承定义的新类,将继承已有类的方法和属性,并且可以添加新的方法和属性。新类被称为已有类的子类或派生类,已有类称为父类或基类。l 若一个子类只能继承一个父类的特性,叫做单继承;若一个子类能继承多个父类的特性,叫做多重继承。面向对象数据模型面向对象数据模型(Cont.)(Cont.)数据库原理及应用n 例如,学校模型中有教职工和学生两个类,其中教职工中又可分为教师类和行政人员类,所有教师有专业这一属性,行政人员有行政级别属性,它们是教职工的两个子类。同时教职工和学生也具有某些相似的属性,如都有身份证号码、姓名、性别、年龄等,可以把它们看成是人的子类。其中在职研究生同时继承了
14、教职工和学生的特性,这种情况成为多重继承。其类层次结构如图10-4所示。图10-4 学校数据库的类层次结构图面向对象数据模型面向对象数据模型(Cont.)(Cont.)数据库原理及应用n 面向对象数据库的模型描述工具ODL(对象定义语言),是CORBA(公共对象请求代理体系结构)的一个组件。ODL与具体的OODBMS无关,和E-R图一样,是建立数据库概念模型的工具,也可以向DBMS支持的数据模型转化,如图10-5所示。现实世界OODBMSODL抽象 对象数据模式图10-5 数据库建模和实现的过程面向对象数据库建模面向对象数据库建模数据库原理及应用n ODL的类说明在对象的定义中主要包括以下几个
15、部分:l 关键字 Interface(接口)l 类的名字l 类的特性表,可以是属性、联系、方法。n ODL类说明的最简单形式是:interface ;面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n ODL中属性的说明属性是类的一种最简单的特性。利用ODL描述学生(student)类,语句如下:interface student /student是一个类是一个类 attribute string sno;/属性属性sno,其类型是其类型是string attribute string name;/属性属性name,其类型是其类型是string attribute
16、 integer age;/属性属性age,类型是整型类型是整型 attribute enum sextype male,female sex;/属性属性sex,其类型是枚举型其类型是枚举型;面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n 前面是student类的说明,任何一个student对象在这几个属性上均对应一个分量。该例中的属性均是原子的,事实上属性类型可以是结构、集合、聚集等复杂类型。n 下例给出类college的ODL描述,有属性name(学院名)、president(负责人)、address(地址),其中address是一个结构,包括楼层和房间号
17、:interface college attribute string name;attribute string president;attribute struct Addr string room,string floor address;n ODL中的原子类型有:整型(integer)、浮点型(float)、字符(char)、字符串(string)、布尔型(boolean)和枚举型(enum)。复杂类型可以是集合、列表、数组和结构等。面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n ODL中的联系 为了得到对象与同类或不同类的其他对象的连接方式,需要在类
18、的定义中说明类与类之间的联系。如学生类与学院类之间有联系,一个学生对象总与某个学院对象有关系(从属关系)。l 在Student类说明中,可用下面的ODL语句表示这种联系:relationship college studyin;/该语句说明在该语句说明在Student类中的每个对象,类中的每个对象,/都有一个对都有一个对College对象的引用,引用名为对象的引用,引用名为studyin。l 反向联系(在college类说明中):relationship set owns inverse student:studyin;面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及
19、应用n ODL中的类的继承 假设类B是类A的子类,那么在定义类B时,可以在后加上:A,说明类B是类A的子类,并可继承类A的所有特性。例子:定义类postgraduate(研究生)为student的子类。interface postgraduate:student /类类postgraduate是类是类student的子类的子类 Relationship college member /所有的所有的postgraduate对象都有一个联系对象都有一个联系member,/表示该研究生属于一个学院,并且一名研究生只属于一个学院表示该研究生属于一个学院,并且一名研究生只属于一个学院;面向对象数据库建模
20、(面向对象数据库建模(Cont.Cont.)数据库原理及应用n ODL中方法的说明l 类的另一个特性是方法,方法是与类相关的函数。l 类中的每一个对象都能引用方法,同一方法可用于多个类,这是面向对象语言的特点。l 方法说明中主要有方法名、方法的输入/输出类型说明等。而方法的实际代码是用宿主语言写的,代码本身不是ODL的一部分。l 调用方法时,可能会引起异常,即出现异常或非希望的情况,这种情况一般应由某个函数来处理(相当于出错处理)。在ODL的方法说明中,提供关键字raises(引发),在括号里列出异常处理列表。面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n 例
21、子:类student的扩充定义,增加了方法的说明:interface student(key name)attribute string sno;attribute string name;attribute integer age;attribute enum sextype male,female sex;relationship college studyin inverse college:owns;relationship set joins inverse item:joinby;String Departname()raises(nodepartFound);Otheritem(
22、in item,out set)raise(noitemin);第一个方法是Departname,该函数将产生一字符串型的返回值。第二个方法是Otheritem,该函数没有任何返回值,其输入参数类型为item,输出参数为student的对象集合。面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n E-R模型向面向对象数据模型的转换 当建立了现实世界的E-R模型以后,可将其转换为OO模型。转换时,可按照以下的步骤进行:l将E-R模型中的每个实体集生成一个类,实体集的属性转换为类的属性。l 将E-R模型中具有ISA联系的实体集生成的类之间建立类/子类关系。l 在转换得
23、到的类中加入联系的说明。n 转换中联系的说明l 对原E-R模型中有一对一联系的实体集,在其生成的类中,都加入联系说明,说明其和另一个类中的一个对象有关。l 对原E-R模型中有一对多联系的实体集,在一方生成的类中,加入联系说明,说明其和另一个类中的对象集合有关;在多方生成的类中,加入联系说明,说明其和另一个类中的一个对象有关。l 对原E-R模型中有多对多联系的实体集,在其生成的类中,都加入联系说明,说明其和另一个类中的对象集合有关。面向对象数据库建模(面向对象数据库建模(Cont.Cont.)数据库原理及应用n 按照1990年高级DBMS功能委员会发表的“第三代数据库系统宣言”,一个对象关系数据
24、库系统必须满足两个条件:l 一是支持一核心的面向对象数据模型;l 二是支持传统数据库系统所有的数据库特征。对象对象-关系数据库关系数据库数据库原理及应用n 对象-关系数据库系统除了具有原来关系数据库的各种特点外,还应该提供以下特点:l 扩充数据类型:允许用户自己定义数据类型、函数和操作符,而且这些新的数据类型、函数和操作符一经定义将存放在数据库管理系统核心中,如同基本数据类型一样可供所有用户共享。l支持复杂对象:能够在SQL中支持复杂对象。复杂对象是指由多种基本数据类型或用户自定义的数据类型构成的对象。l 支持继承的概念:能够支持子类、超类的概念,支持继承与派生的概念,支持单继承与多重继承,支
25、持重载。l 提供通用的规则系统:能够提供强大而通用的规则系统,如规则中的事件和动作可以是任意的SQL语句,可以使用用户自定义的函数、规则能够被继承等。对象对象-关系数据库(关系数据库(Cont.Cont.)数据库原理及应用n 实现对象-关系数据库系统,可以采用方法:l从头开发对象-关系数据库系统。这种方法费时费力,一般不采用。l 在现有的关系型数据库系统基础上进行扩展。n 五种扩展方法l 对关系型数据库系统核心进行扩充,逐渐增加对象特性。l 不修改现有的关系型数据库系统核心,而是在现有关系型数据库系统外面加上一个包装层,由包装层提供对象-关系型应用编程接口。l 将现有的关系型数据库系统与其他厂
26、商的对象-关系型数据库系统连接在一起,使现有的关系型数据库系统直接而迅速地具有了对象-关系特征。l 将现有的面向对象型数据库系统与其他厂商的对象-关系型数据库系统连接,使现有的面向对象型数据库系统直接而迅速地具有了对象-关系特征。l 扩充现有的面向对象的数据库系统,使之成为对象-关系型数据库系统。对象对象-关系数据库(关系数据库(Cont.Cont.)数据库原理及应用n 相对于传统关系数据库,目前面对对象数据库可能存在的优势和劣势?n 将下面E-R模型用ODL描述:思考题思考题数据库原理及应用n ODL描述的E-R模型:interface Producer(key name)attribute
27、 string name;attribute string address;attribute string tel;relationship Set produces inverse Product:producedBy;;interface Product(key(brand,model)attribute string brand;attribute string model;attribute integer price;relationship Producer producedBy inverse Producer:produces;;思考题解答思考题解答数据库原理及应用n“面向对
28、象数据库系统及其应用”参考资料参考资料 数据库原理及应用n 数据仓库涉及在关系数据库中存储数据和处理这些数据,使数据成为查询和决策支持分析的更加有效的工具。换句话说,数据仓库是一种把收集的各种数据转变成有商业价值的信息的技术。n 目前,数据库应用主要有两类:联机事务处理和分析型处理。l 联机事务处理(OLTP)注重数据库的完整性、安全性以及高可用性。l 与OLTP不同,分析型处理主要用于管理人员的决策分析,通过对大量数据(特别是历史数据)的综合、统计和分析得出有利于企业的决策信息。这种分析查询,一般需要访问大量的数据和花费相对多的时间才能完成。而数据仓库和联机分析处理(OLAP)等技术能够从多
29、个数据源收集数据,提供用户进行决策分析。数据仓库的定义与特征数据仓库的定义与特征数据库原理及应用n 数据仓库(Data Warehouse)是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。n 对于数据仓库的概念我们可以从两个层次予以理解:l 首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;l 其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。n 根据数据仓库概念的含义,数据仓库拥有以下四个特征:(1)面向主题。(2)集成的。(3)相对稳定的。(4)反映历史
30、变化。数据仓库的定义与特征数据仓库的定义与特征数据库原理及应用n 一个数据仓库一般来说包含以下7个主要组成部分:(1)数据源 (2)数据抽取、转换和装载工具 (3)数据建模工具。(4)核心存储。(5)数据仓库的目标数据库。(6)前端数据访问和分析工具。(7)数据仓库管理工具。n 数据仓库的体系结构如图10-6所示(不是唯一的表示法)。数据仓库系统的体系结构数据仓库系统的体系结构数据库原理及应用数据库数据文件其 它 数 据源数据仓库管理工具专用多维数据库管理系统用户查询工具数据抽取转换工具核 心仓 储数据建模工具关系型数据库管理系统标准c/s工具报 表工 具DSS/EIS工具分析工具图10-6
31、数据仓库体系结构数据库原理及应用n 数据仓库的基本组成是事实表和维表。l事实表:事实表(Fact Table)是数据仓库中存储历史商务数据的表。它们包含描述特定事件或业务的信息和数据的汇总。l 维表:维表(Dimension Table)用于提炼事实表中所包含的数据,或者更详细地描述它。因此,数据类型一般是字符数据。事实表和维表之间的关系由事实表到维表上的外码约束。一般地,一个事实表的主码由多部分组成,主码的每一部分是它周围维表的外码。n 在数据仓库的建模技术中,常用的有星型模式和雪花模式。下面介绍星型模式和雪花模式中事实表和维表的关联方式。l 星型模式l 雪花模式(规范化处理)数据仓库的数据
32、库模式数据仓库的数据库模式数据库原理及应用n 数据仓库工具是数据仓库系统的一个重要组成部分,主要有数据抽取和转换工具和前端数据访问和分析工具。l 数据抽取和转换工具:传统的关系型数据库管理系统也许不能全面满足对数据抽取和转换的功能需要,数据仓库体系结构设计人员可以根据具体的需要选择合适的数据抽取和转换工具,与数据库管理系统相结合,全面实施数据抽取和转换。l 前端数据访问和分析工具:目前市场上能获得的数据访问和分析工具种类繁多,主要有关系型查询工具、关系型数据的多维视图工具、DSS/EIS软件包和客户机/服务器工具等四大类。数据仓库工具数据仓库工具数据库原理及应用n 数据挖掘(Data Mini
33、ng)是指对数据进行深入地研究,从超大型数据库(VLDB)或数据仓库中发现事先未注意到的,但是潜在有用的信息和知识。n 数据挖掘综合了人工智能、机器学习、统计学等技术,是应用数据仓库进行决策支持的关键技术。n 数据仓库、OLAP和数据挖掘是作为三种独立的信息处理技术出现的,用数据仓库存储和组织数据,数据的分析由OLAP集中完成,数据挖掘则致力于知识的自动发现。数据挖掘技术数据挖掘技术数据库原理及应用n 分类 是指将数据映射到预先定义好的群组或类。分类算法要求分析对象的属性、特征,以建立不同的类别来描述事物。例如银行部门根据以前的数据将客户分成了不同的类别,以确定对新申请贷款的客户是否批准或确定
34、信用风险。n 聚类 一般是指将数据划分或分割成相交或不相交的群组的过程。聚类合分类很相似,只不过聚类中的类别没有事先定义而是由数据决定的。例如将贷款申请人分为高信用度申请者,中信用度申请者,低信用度申请者等。n 汇总 是指将数据映射到具有简单描述的子集中。汇总从数据库中抽取或者得到有代表性的信息,也可以得到一些总结性信息,汇总有时也被称为特征化或泛化。数据挖掘的主要任务数据挖掘的主要任务数据库原理及应用n 关联规则和序列模式的发现 关联是某种事物发生时其他事物跟着会发生的这样一种联系。例如每天买大米的人也有可能买纸巾,可能性有多大,可以通过关联的支持度和可信度来描述。与关联不同,序列是一种纵向
35、的联系。例如所有买了圆珠笔的人,一个月后又有30%的人买笔芯,70%的人又买新的圆珠笔。n 预测 把握分析对象发展的规律,对未来的趋势做出预见。例如对未来股市行情的判断。n 偏差的检测 数据库中的数据存在者很多异常的情况,通过对数据的分析发现少数的、极端的特例的描述,揭示内在的原因,即为偏差的检测。数据挖掘的主要任务(数据挖掘的主要任务(Cont.Cont.)数据库原理及应用n 传统统计方法 抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样。多元统计分析:因子分析,聚类分析等。统计预测方法:如回归分析,时间序列分析等。n 可视化技
36、术 用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。n 决策树 利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。数据挖掘的方法数据挖掘的方法数据库原理及应用n 神经网络 模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。n 遗传算法 基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。n 关联规则挖掘算法 关联规则是描述数据之间存在关系的规则,形式为“A1A2AnB1B2Bn”。一般分为
37、两个步骤:求出大数据项集和用大数据项集产生关联规则。n 除了以上的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Netords,最邻近算法(K-Nearest Neighbors(KNN))等。数据挖掘的方法(数据挖掘的方法(Cont.Cont.)数据库原理及应用n 实施数据挖掘的一般的步骤如下,如图10-7所示:问题理解和提出数据准备数据整理建立模型评价和解释图10-7 数据挖掘的一般步骤数据挖掘的实施步骤数据挖掘的实施步骤n 问题理解和提出 在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义。数据库原理及应用n 数据
38、准备 获取原始的数据,并从中抽取一定数量的子集,建立数据挖掘库,其中一个问题是如果企业原来的数据仓库满足数据挖掘的要求,就可以将数据仓库作为数据挖掘库。n 数据整理 由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,就要对数据进行初步的整理,清洗不完全的数据,做初步的描述分析,选择与数据挖掘有关的变量,或者转变变量。n 建立模型 根据数据挖掘的目标和数据的特征,选择合适的模型。n 评价和解释 对数据挖掘的结果进行评价,选择最优的模型,作出评价,运用于实际问题,并且要和专业知识结合对结果进行解释。数据挖掘的实施步骤(数据挖掘的实施步骤(Cont.Cont.)数据库原理及应用n 数据挖掘
39、的应用非常广泛,只要该产业有分析价值与需求的数据库,皆可利用挖掘工具进行有目的的发掘分析。常见的应用案例多发生在零售业、制造业、财务金融保险、通讯及医疗服务:l 商从顾客购买商品中发现一定的关系,提供打折购物券等,提高销售额。l 保险公司通过数据挖掘建立预测模型,辨别出可能的欺诈行为,避免道德风险,减少成本,提高利润。l 在制造业中,半导体的生产和测试中都产生大量的数据,就必须对这些数据进行分析,找出存在的问题,提高质量。l 电子商务的作用越来越大,可以用数据挖掘对网站进行分析,识别用户的行为模式,保留客户,提供个性化服务,优化网站设计。数据挖掘应用现状数据挖掘应用现状数据库原理及应用 尽管数
40、据挖掘有如此多的优点,但数据挖掘也面临着许多的问题,这也为数据挖掘的未来的发展提供了更大的空间。n 数据挖掘的基本问题就在于数据的数量和维数,数据结构也因此显的非常复杂,如何进行探索,选择分析变量,也就成为首先要解决的问题。n 面对如此大的数据,现有的统计方法等都遇到了问题,我们直接的想法就是对数据进行抽样,那么怎么抽样,抽取多大的样本,又怎样评价抽样的效果,这些都是值得研究的难题。数据挖掘中存在的问题数据挖掘中存在的问题数据库原理及应用n 既然数据是海量的,那么数据中就会隐含一定的变化趋势,在数据挖掘中也要对这个趋势做应有的考虑和评价。n 各种不同的模型如何应用,其效果如何评价。不同的人对同
41、样的数据进行挖掘,可能产生不同的结果,甚至差异很大,这就涉及到可靠性的问题。n 当前互联网的发展迅速,如何进行互联网的数据挖掘,还有文本等非标准数据的挖掘,都引起了极大的兴趣。n 数据挖掘涉及到数据也就碰到了数据的私有性和安全性。n 数据挖掘的结果是不确定的,要和专业知识相结合才能对其做出判断。数据挖掘中存在的问题(数据挖掘中存在的问题(Cont.Cont.)数据库原理及应用n 有一金融中心,为了向其客户提供更全面、灵活的金融信息服务,向一软件公司提出建立数据仓库的需求,并要求软件公司现先建立一个“全面的、涵盖其目前数据库中绝大部分金融信息”的数据仓库,然后以此为基础,分批次增加各种在线信息服务功能。试分析该金融中心要求的合理性和可行性,提出你的建议。讨论题讨论题数据库原理及应用参考资料参考资料 n 数据仓库与数据挖掘.安淑芝等编著.清华大学出版社.数据库原理及应用结结 束束