《优秀课件 现代管理信息系统 chap4 PPT.ppt》由会员分享,可在线阅读,更多相关《优秀课件 现代管理信息系统 chap4 PPT.ppt(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、现代管理信息系统现代管理信息系统主讲:刘腾红主讲:刘腾红 教授教授中南财经政法大学信息学院88045575目录目录第一章第一章 导论导论第二章第二章 企业组织活动企业组织活动第三章第三章 通信与计算机网络通信与计算机网络第四章第四章 数据与文件组织数据与文件组织第五章第五章 信息系统规划信息系统规划 第六章第六章 信息系统开发技术信息系统开发技术 第七章第七章 企业资源计划系统企业资源计划系统第八章第八章 办公自动化系统办公自动化系统 第九章第九章 智能决策支持系统智能决策支持系统第十章第十章 电子商务电子商务-管理信息系统的新发展管理信息系统的新发展第四章第四章 数据与文件组织数据与文件组织
2、本章目标:通过文件系统与数据库系统的对比,更深刻地了解本章目标:通过文件系统与数据库系统的对比,更深刻地了解数据库管理数据的优势;初步了解数据库系统的相关知识。数据库管理数据的优势;初步了解数据库系统的相关知识。第一节第一节 数据结构的层次数据结构的层次第二节第二节 文件与文件组织文件与文件组织第三节第三节 数据库系统数据库系统第四节第四节 SQL语言语言第五节第五节 数据仓库与数据挖数据仓库与数据挖掘掘本章主要内容:本章主要内容:第四章第四章 数据与文件组织数据与文件组织 第一节第一节 数据结构的层次数据结构的层次本节目标:了解数据结构有哪几个层次及其各层次的相关知识本节目标:了解数据结构有
3、哪几个层次及其各层次的相关知识点。点。q位、字节、数据元(字段)、位、字节、数据元(字段)、记录、文件和数据库记录、文件和数据库本节主要内容:本节主要内容:第四章第四章 数据与文件组织数据与文件组织 第一节第一节 数据结构的层次数据结构的层次q位、字节、数据元(字段)、记录、文件和数据库位、字节、数据元(字段)、记录、文件和数据库二进制位(二进制位(bit):):0,1字节(字节(byte):):由由8位位bit组成,可构成文字字符组成,可构成文字字符例如:字母、数字等例如:字母、数字等字符段(字符段(field):):描写主体某属性的数据值描写主体某属性的数据值例如:学生姓名例如:学生姓名记
4、录(记录(record):):若干字符段组合起来,描述一个主体若干字符段组合起来,描述一个主体例如:学生李怡的基本情况例如:学生李怡的基本情况文件(文件(file):):相关记录的集合相关记录的集合例如:学生基本情况数据文件例如:学生基本情况数据文件数据库(数据库(database):):相关文件的集合相关文件的集合例如:学生数据库,可能包括学生基本情况文件、学生学习成绩文件、例如:学生数据库,可能包括学生基本情况文件、学生学习成绩文件、课程文件、指导教师文件等课程文件、指导教师文件等第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织本节目标:了解外存设备、
5、文件存取方法与文件组织。本节目标:了解外存设备、文件存取方法与文件组织。q外存设备外存设备q文件存取方法与文件组织文件存取方法与文件组织本节主要内容:本节主要内容:第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q外存设备外存设备常用的外存储设备有(磁带、磁盘)、光盘和移动硬盘常用的外存储设备有(磁带、磁盘)、光盘和移动硬盘(U盘)。盘)。v简述磁带、磁盘、光盘和移动硬盘如何存取数据以简述磁带、磁盘、光盘和移动硬盘如何存取数据以及它们各自的特点及它们各自的特点。移动硬盘顾名思义是以硬盘为存储介制,强调便携性的存储产移动硬盘顾名思义是以硬盘为存储介制,强调便
6、携性的存储产品。品。移动硬盘在数据的读写模式与标准移动硬盘在数据的读写模式与标准IDEIDE硬盘是相同的。硬盘是相同的。移动硬盘多采用移动硬盘多采用USBUSB、IEEE1394IEEE1394等传输速度较快的接口,可以等传输速度较快的接口,可以较高的速度与系统进行数据传输。较高的速度与系统进行数据传输。移动硬盘的特点:容量大、传输速度高、轻巧便捷和数据安全移动硬盘的特点:容量大、传输速度高、轻巧便捷和数据安全可靠等。可靠等。第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q文件存取方法与文件组织文件存取方法与文件组织 文件文件在逻辑上是具有相同类型的记录
7、的有序集合。在逻辑上是具有相同类型的记录的有序集合。数据按记录组织起来,并按一定的次序存放在文件中,数据按记录组织起来,并按一定的次序存放在文件中,而文件中记录间的逻辑关系就是而文件中记录间的逻辑关系就是文件组织文件组织。v文件组织不仅关系到对记录的操作方式,还关系到数据文件组织不仅关系到对记录的操作方式,还关系到数据处理的效率,文件组织显然和文件的物理结构以及文件存处理的效率,文件组织显然和文件的物理结构以及文件存储的设备类型有关。储的设备类型有关。第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q记录的逻辑结构和物理结构记录的逻辑结构和物理结构记录的记
8、录的逻辑结构逻辑结构是指记录在逻辑上的组织形式,是用户是指记录在逻辑上的组织形式,是用户对数据的表示和组织形式,它表明了记录数据之间的关系。对数据的表示和组织形式,它表明了记录数据之间的关系。记录的记录的物理结构物理结构是指记录在物理存储器上的存储方式,是指记录在物理存储器上的存储方式,是一个与计算机存储设备相联系的概念。是一个与计算机存储设备相联系的概念。逻辑记录与物理记录之间存在着逻辑记录与物理记录之间存在着三种关系三种关系:一个记录:一个记录一个块、若干个记录一个块及一个记录占用多个块。一个块、若干个记录一个块及一个记录占用多个块。第四章第四章 数据与文件组织数据与文件组织 第二节第二节
9、 文件与文件组织文件与文件组织q文件操作文件操作在计算机信息处理时,对文件的常用操作要求主要有如下在计算机信息处理时,对文件的常用操作要求主要有如下几种:打开文件、生成记录、检索记录、更新记录、删除记几种:打开文件、生成记录、检索记录、更新记录、删除记录、关闭文件。录、关闭文件。打开文件就是将文件与内存中的某个缓冲区建立联系,并将文件开打开文件就是将文件与内存中的某个缓冲区建立联系,并将文件开关的部分数据读入此缓冲区中。关的部分数据读入此缓冲区中。生成记录:指在文件中加入记录。在文件末尾加入记录称为追加记生成记录:指在文件中加入记录。在文件末尾加入记录称为追加记录,在文件的记录中间加入记录称为
10、插入记录。录,在文件的记录中间加入记录称为插入记录。检索记录:根据某个或某些给定的条件,在文件中查找满足这些条检索记录:根据某个或某些给定的条件,在文件中查找满足这些条件的记录。件的记录。更新记录:修改记录的数据项的值。更新记录:修改记录的数据项的值。删除记录:从文件中将某个记录删除。删除记录:从文件中将某个记录删除。关闭文件:将文件缓冲区的内容写入文件中,并切断文件与其内存关闭文件:将文件缓冲区的内容写入文件中,并切断文件与其内存缓冲区的联系。缓冲区的联系。第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q文件存储方法文件存储方法文件的存取文件的存取指将
11、内存缓冲中的记录信息写入(存入)外指将内存缓冲中的记录信息写入(存入)外存储器上相应的文件中或从文件中读出(取出)记录送到内存储器上相应的文件中或从文件中读出(取出)记录送到内存缓冲区中。存缓冲区中。顺序存取方法就是严格按记录排列的顺序依次存取。顺序存取方法就是严格按记录排列的顺序依次存取。直接存取方法就是按照给出的记录号,直接确定记录直接存取方法就是按照给出的记录号,直接确定记录在文件中的位置并将其读出的存取方法。在文件中的位置并将其读出的存取方法。根据存取的次序来划分,文件存取方法通常可分为两大根据存取的次序来划分,文件存取方法通常可分为两大类:类:顺序存取顺序存取和和直接存取直接存取。第
12、四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q顺序文件顺序文件只能按记录建立的次序访问记录数据的文件称作只能按记录建立的次序访问记录数据的文件称作顺序文顺序文件件。顺序文件的特点:顺序文件的特点:顺序访问顺序访问 适用于成批处理和定期处理业务适用于成批处理和定期处理业务 作修改、插入、删除等操作很费事作修改、插入、删除等操作很费事第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织q随机文件随机文件存放于随机存储设备上并可以任意次序访问任意记录的文存放于随机存储设备上并可以任意次序访问任意记录的文件称作件称作随机文件随机
13、文件。另一种典型的文件组织称为索引文件。为避免计算记录的位置,我们可以保存一个索引,记载数据文件中关键字值及其相对应的地址。根据根据“存储地址存储地址”和记录关键字段建立联系的方式,随机和记录关键字段建立联系的方式,随机文件又可分为文件又可分为索引文件索引文件和和散列文件(散列文件(HASH文件)文件)两两种。种。散列文件又称HASH文件,在散列文件中,各记录的地址由关键字段的一个Hash函数(Hashing function)决定。第四章第四章 数据与文件组织数据与文件组织 第二节第二节 文件与文件组织文件与文件组织qHASH文件文件第四章第四章 数据与文件组织数据与文件组织 第二节第二节
14、文件与文件组织文件与文件组织q索引文件索引文件第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统本节目标:初步了解数据库系统的相关知识。本节目标:初步了解数据库系统的相关知识。q数据库系统数据库系统q数据模型数据模型q关系模式规范化关系模式规范化本节主要内容:本节主要内容:第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统数据库系统文件系统的缺陷是:数据和程序是相互依赖的文件系统的缺陷是:数据和程序是相互依赖的,而各个数而各个数据文件相互独立,不能共享。据文件相互独立,不能共享。数据库是一种作为计算机系统资源共享的全部数据之集
15、合,数据库是一种作为计算机系统资源共享的全部数据之集合,数据库有统一的质量保证规程,有统一的管理机构,能够数据库有统一的质量保证规程,有统一的管理机构,能够对数据进行统一管理。对数据进行统一管理。数据库的主要优点是可以把数据冗余减少到合理的程度,数据库的主要优点是可以把数据冗余减少到合理的程度,同时减少了数据和应用程序之间的相互依赖,当数据修改同时减少了数据和应用程序之间的相互依赖,当数据修改时,不至于引起对程序过多的修改时,不至于引起对程序过多的修改第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统数据库系统数据库系统的核心是数据库管理系统数据库系统的
16、核心是数据库管理系统DBMS(DataBase Management System)。)。DBMS是用来建立数据库、使是用来建立数据库、使用数据库、提供数据操作语言、对数据的合法性和安全性用数据库、提供数据操作语言、对数据的合法性和安全性等进行管理的软件系统。各用户对数据的访问与控制由等进行管理的软件系统。各用户对数据的访问与控制由DBMS统一管理,统一管理,DBMS还承担着数据库和用户之间的接还承担着数据库和用户之间的接口的作用。用户通过数据库管理系统可以对自己的数据进口的作用。用户通过数据库管理系统可以对自己的数据进行管理,如:建库、查询、修改、统计等。行管理,如:建库、查询、修改、统计等
17、。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统数据库系统数据库系统示意图第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统体系结构数据库系统体系结构美国国家标准委员会(美国国家标准委员会(ANSI)所属标准计划和要求委员所属标准计划和要求委员会(会(Standards Planning And Requirements Committee)在在1975年公布了一个关于数据库标准报告,年公布了一个关于数据库标准报告,提出了数据库的三级结构组织,这就是有名的提出了数据库的三级结构组织,这就是有名的SPARC分分级
18、结构级结构。三级结构对数据库的组织从内到外分三个层次描述,分三级结构对数据库的组织从内到外分三个层次描述,分别称为别称为内模式内模式、概念模式概念模式和和外模式外模式。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统体系结构数据库系统体系结构模式:全称概念模式,是对数据库的整体逻辑描述,并模式:全称概念模式,是对数据库的整体逻辑描述,并不涉及物理存储,故称为不涉及物理存储,故称为DBA视图。视图。v三个模式之间的映射三个模式之间的映射 “外模式外模式/模式模式”用户数据库与概念数据库联系用户数据库与概念数据库联系 “模式模式/内模式内模式”概念数据库与
19、物理数据库联系概念数据库与物理数据库联系内模式:又称存储模式,具体描述了数据如何组织存储在内模式:又称存储模式,具体描述了数据如何组织存储在存储介质上。存储介质上。外模式:外模式通常是模式的一个子集,故又称为外模式外模式:外模式通常是模式的一个子集,故又称为外模式为子模式。为子模式。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据库系统体系结构数据库系统体系结构第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q数据模型数据模型 数据模型数据模型就是现实世界数据特征的抽象。就是现实世界数据特征的抽象。v 典型的概念模型是典型的概念
20、模型是实体实体-联系模型联系模型,典型的逻辑数据模型有三种:,典型的逻辑数据模型有三种:层次模型层次模型、网状模型网状模型和和关系模型关系模型。常见的是关系模型。常见的是关系模型。概念模型:按用户的观点对现实世界进行抽象建立的数据模型称为概念模型:按用户的观点对现实世界进行抽象建立的数据模型称为概念模型。概念模型。逻辑模型:按计算机信息处理的观点用于描述数据的相互间语义关逻辑模型:按计算机信息处理的观点用于描述数据的相互间语义关系的数据模型称为逻辑数据模型系的数据模型称为逻辑数据模型 物理模型:用于描述数据的物理存储方式的数据模型称为物理数物理模型:用于描述数据的物理存储方式的数据模型称为物理
21、数据模型。据模型。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q实体联系模型实体联系模型 基本概念:基本概念:实体实体 属性属性 域域 实体型实体型 实体集实体集v概念模型用于信息世界的建模,它是现实世界到信息世界的第一层概念模型用于信息世界的建模,它是现实世界到信息世界的第一层抽象,它是数据库设计的有力工具,也是数据库开发人员与用户之间抽象,它是数据库设计的有力工具,也是数据库开发人员与用户之间进行交流的语言。进行交流的语言。实体之间的联系实体之间的联系 一对一联系(一对一联系(1:1)一对多联系(一对多联系(1:n)多对多联系(多对多联系(m:n)第四章第
22、四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q实体联系模型实体联系模型学生选课E-R图第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q关系模型关系模型 基本概念基本概念 关系关系 属性属性 元组元组 关键字关键字 域域 分量分量 关系模式关系模式v关系模型与层次和网状模型的理论和风格截然不同,如果说层次和关系模型与层次和网状模型的理论和风格截然不同,如果说层次和网状模型是用网状模型是用“图图”表示实体及其联系的话,那么关系模型则是用表示实体及其联系的话,那么关系模型则是用“表表”来表示的。来表示的。关系模型中,实体及实体之间的联系均采用
23、关系来表示,关系模型中,实体及实体之间的联系均采用关系来表示,每个关系是由每个关系是由n个数据项所组成的形如(个数据项所组成的形如(a1,a2,a3,an)的元组的集合即表,表中的各字段(栏)是记录的的元组的集合即表,表中的各字段(栏)是记录的属性,各行是具有唯一性的实体。属性,各行是具有唯一性的实体。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q关系模式规范化关系模式规范化在规范化理论中表是二维的(如上表所示),它有如下在规范化理论中表是二维的(如上表所示),它有如下性质:性质:在表中的任意一列上,数据项应属于同一个属性。在表中的任意一列上,数据项应属于同一
24、个属性。表中所有行都是不同的,不允许有重复项出现。表中所有行都是不同的,不允许有重复项出现。在表中,行在表中,行/列的顺序无关紧要。列的顺序无关紧要。v数据组织的规范化形式是关系数据库的创始人之数据组织的规范化形式是关系数据库的创始人之 IBM公司的公司的科德(科德(E.F.Codd)首先提出的,并形成了一整套数据规范化模式。在首先提出的,并形成了一整套数据规范化模式。在对表的形式进行了规范化定义后,科德还对数据结构进行了五种规范对表的形式进行了规范化定义后,科德还对数据结构进行了五种规范化定义,并命名为规范化模式,称为范式。在这五种范式中,一般只化定义,并命名为规范化模式,称为范式。在这五种
25、范式中,一般只用前三种,对于应用系统就足够了。用前三种,对于应用系统就足够了。第四章第四章 数据与文件组织数据与文件组织 第三节第三节 数据库系统数据库系统q关系模式规范化关系模式规范化第一第一范式范式(first normal formfirst normal form,1st NF1st NF)就是指在同一就是指在同一表中没有重复项出现,如果有则应去掉重复项。表中没有重复项出现,如果有则应去掉重复项。第二范式(第二范式(second normal formsecond normal form,2nd NF2nd NF)是指每个表是指每个表必须有一个(而且仅一个)数据元素为主关键字,其它数必
26、须有一个(而且仅一个)数据元素为主关键字,其它数据元素与主关键字一一对应。据元素与主关键字一一对应。第三范式(第三范式(third normal formthird normal form,3rd NF3rd NF)就是指表中的就是指表中的所有数据元素不但唯一地被关所有数据元素不但唯一地被关键键字所字所标识标识,而且它,而且它们们之之间间还还必必须须相互独立,不存在其它的函数关系相互独立,不存在其它的函数关系 。第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言本节目标:初步了解数据库操作语言本节目标:初步了解数据库操作语言q建立表、索引和视图建立表、索引和视图qS
27、ELECT语句语句本节主要内容:本节主要内容:第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言qSQL语言语言 结构化查询语言结构化查询语言SQL(Structured Query Languege)是一个通用的、功能极强的关系数据库语言,是一个通用的、功能极强的关系数据库语言,同时又具有简单易学的特点,它集数据定义、数据查询、同时又具有简单易学的特点,它集数据定义、数据查询、数据操纵和数据控制与一体,是一种非过程化的语言。数据操纵和数据控制与一体,是一种非过程化的语言。SQLSQL支持关系数据库的三级模式结构,其中支持关系数据库的三级模式结构,其中模式对应于模式
28、对应于基本表基本表,关系数据库的模式由数据库中的所有表的模式集,关系数据库的模式由数据库中的所有表的模式集合构成;合构成;外模式对应于视图外模式对应于视图,它由部分表及表示中的部,它由部分表及表示中的部分数据构成;分数据构成;内模式对应于存储文件内模式对应于存储文件。CREATE TABLE表名(字段名1数据类型 NOT NULL,字段名2数据类型 NOT NULL,字段名n数据类型 NOT NULL;)第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言q建立表、索引建立表、索引定义一个表的结构定义一个表的结构 SQL语言使用语言使用CREATE TABLE语句来定
29、义基本表,它的语句来定义基本表,它的一般格式如下:一般格式如下:INSERT INTO表名(字段名1,字段名2,)VALUES(,);第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言q建立表、索引建立表、索引向向表中插入入数据记录表中插入入数据记录 SQL中向表中追加数据的基本语句为中向表中追加数据的基本语句为INSERT INTO。其其语法规则为:语法规则为:CREATE UNIQUE INDEX ON (字段名1ASC/DSC,字段名2ASC/DSC,);第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言q建立表、索引建立表、索引建
30、立索引建立索引 对已建好的表还可以根据需要建立索引,其语法规则为:对已建好的表还可以根据需要建立索引,其语法规则为:UPDATE表名SET 字段名1=,字段名2=,字段名n=WHERE ;第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言q建立表、索引建立表、索引修改表中的记录修改表中的记录 对已建立的数据库进行修改可以用对已建立的数据库进行修改可以用UPDATEUPDATE语句来完成,语句来完成,其语法规则如下:其语法规则如下:SELECT ALL|DISTINCT,FROM ,WHERE GROUP BY HAVING ORDER BY ASC|DESC;第四章
31、第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言qSELECT语句语句SQL中查询用中查询用SELECT语句来实现。语句来实现。SELECTSELECT的基本语法为:的基本语法为:CREATE VIEW (,)AS SQL 查询语句 WITH CHECK OPTION;第四章第四章 数据与文件组织数据与文件组织 第四节第四节 SQLSQL语言语言q建立视图建立视图视图是关系数据库系统提供给用户以多种角度观察数据视图是关系数据库系统提供给用户以多种角度观察数据库中数据的重要机制。视图是从一个或几个基本表(或视库中数据的重要机制。视图是从一个或几个基本表(或视图)中导出的表
32、,它与基本表不同,是一个虚拟表,数据图)中导出的表,它与基本表不同,是一个虚拟表,数据库系统也只存放视图的定义,而不存放视图对应的数据。库系统也只存放视图的定义,而不存放视图对应的数据。建立视图的语法规则第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘本节目标:初步了解数据仓库与数据挖掘相关知识本节目标:初步了解数据仓库与数据挖掘相关知识q数据仓库的定义数据仓库的定义q数据仓库的特征数据仓库的特征q数据仓库与数据库数据仓库与数据库q数据仓库的结构数据仓库的结构qOLAP与数据挖掘与数据挖掘本节主要内容:本节主要内容:第四章第四章 数据与文件组织数据
33、与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据仓库的定义数据仓库的定义 数据仓库数据仓库(Data Warehouse)是一个面向主题的是一个面向主题的(Subject Oriented)、)、集成的(集成的(Integrate)、)、相对稳相对稳定的(定的(Non-Volatile)、)、反映历史变化(反映历史变化(Time Variant)的数据集合,用于支持管理决策。的数据集合,用于支持管理决策。数据仓库并没有严格的数学理论基础,也没有成熟的基数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,在本模式,且更偏向于工程,具
34、有强烈的工程性。因此,在技术上人们习惯于从工作过程等方面来分析,并按其关键技术上人们习惯于从工作过程等方面来分析,并按其关键技术部份分为技术部份分为数据的抽取数据的抽取、存储与管理存储与管理以及以及数据的表数据的表现现等三个基本方面。等三个基本方面。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据的抽取数据的抽取 数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储
35、介质中导入事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。调度和监控等方面。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q存储和管理存储和管理/数据的表现数据的表现 数据仓库的真正关键是数据的数据仓库的真正关键是数据的存储和管理存储和管理。数据仓库。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。了其对外部数据的表现形式。
36、数据表现数据表现实际上相当于数据仓库的门面,其性能主要实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。集中在多维分析、数理统计和数据挖掘方面。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据仓库的特征数据仓库的特征 数据仓库的主要特征:数据仓库的主要特征:v 反映历史变化反映历史变化 :包含历史信息:包含历史信息v 面向主题面向主题:数据按照一定的主题组织。:数据按照一定的主题组织。v 集成化集成化:支持不同的数据格式、具有变量度量的一致:支持不同的数据格式、具有变量度量的一致性和其他如支持结构编码的一致性。性和
37、其他如支持结构编码的一致性。v 相对稳定相对稳定:数据操作主要是数据查询。:数据操作主要是数据查询。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据仓库与数据库数据仓库与数据库 联机事务处理系统联机事务处理系统只涉及当前数据只涉及当前数据 数据中心数据中心:它的数据可以从联机的事务处理系统、异:它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持
38、和联机分析应用所要求的一切。这个数它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做据中心就叫做数据仓库数据仓库。数据仓库与数据库的区别不仅仅是应用的方法和目的上数据仓库与数据库的区别不仅仅是应用的方法和目的上的,同时也涉及产品和配置。的,同时也涉及产品和配置。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据仓库中数据的层次数据仓库中数据的层次数据仓库将其中的数据分为以下几个层次:数据仓库将其中的数据分为以下几个层次:1、当前详细数据、当前详细数据2、历史详细数据、历史详细数据3、轻度概略数据、轻度概略数据4、高度概略数据、高度概
39、略数据5、超数据、超数据数据在数据仓库中的不同层次,它们被使用的情况是不数据在数据仓库中的不同层次,它们被使用的情况是不同的。一般来说,越是在概略化的高层,其数据被使用的同的。一般来说,越是在概略化的高层,其数据被使用的频率越高,而历史性的详细数据却很少被使用。频率越高,而历史性的详细数据却很少被使用。第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘q数据仓库系统体系结构数据仓库系统体系结构第四章第四章 数据与文件组织数据与文件组织 第五节第五节 数据仓库与数据挖掘数据仓库与数据挖掘qOLAP与数据挖掘与数据挖掘 数据仓库支持联机分析处理数据仓库支
40、持联机分析处理OLAPOLAP(On-Line Analysis On-Line Analysis Processing,OLAPProcessing,OLAP)。)。它不但是一种交互式的辅助决策方法,同时又是它不但是一种交互式的辅助决策方法,同时又是一种面向数据的分析方法。一种面向数据的分析方法。数据挖掘(数据挖掘(Data Mining,DMData Mining,DM),),就是在庞大的数据库中寻找出有价就是在庞大的数据库中寻找出有价值的隐藏信息,加以分析,并将这些有意义的信息归纳成结构模式,值的隐藏信息,加以分析,并将这些有意义的信息归纳成结构模式,提供决策时参考。提供决策时参考。v OLAP提供一系列数据分析功能对关系数据库是一种改进。目前,目前,DMDM已经应用在许多领域,包括金融、电信、网络、零售、制作、已经应用在许多领域,包括金融、电信、网络、零售、制作、医疗保健及制药业等。医疗保健及制药业等。数据挖掘是支持数据仓库的。数据挖掘软件包括查询与报表工具、多数据挖掘是支持数据仓库的。数据挖掘软件包括查询与报表工具、多维分析工具、智能代理工具等。维分析工具、智能代理工具等。中南财经政法大学 信息学院 计算机科学与技术系 经济信息管理系