《第1章数据仓库的概念与体系结构18986.pptx》由会员分享,可在线阅读,更多相关《第1章数据仓库的概念与体系结构18986.pptx(43页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘1第第1章章 数据仓库的数据仓库的概念与体系结构概念与体系结构 主讲:张莉Email:历史数据的处理方法历史数据的处理方法l删除已经失效的历史数据删除已经失效的历史数据l介质备份后删除介质备份后删除l建立数据仓库系统建立数据仓库系统2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘22023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘31.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的概念数据仓库的概念l数数据据仓仓库库就就是是一一个个面面向向主主题题的的(S
2、ubject Oriented)、集集成成的的(Integrate)、相相对对稳稳定定的的(Non-Volatile)、反反映映历历史史变变化化(Time Variant)的的数数据据集集合合,通通常常用用于辅助决策支持(于辅助决策支持(DDS)2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘41.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的特点:数据仓库的特点:l面向主题面向主题l数据仓库中的数据是按照一定的主题域进数据仓库中的数据是按照一定的主题域进行组织的行组织的l集成集成l数据仓库中的数据是在对原有分散的数据数据仓库中的数据是在对原有分散
3、的数据库数据作抽取、清理的基础上经过系统加库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的工、汇总和整理得到的2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘51.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的特点:数据仓库的特点:l相对稳定相对稳定l数据操作主要是数据查询和定期更新数据操作主要是数据查询和定期更新l数据加载后,将作为数据档案长期保存数据加载后,将作为数据档案长期保存l反映历史变化反映历史变化l数据仓库中的数据通常包含较久远的历史数据仓库中的数据通常包含较久远的历史数据数据2023/3/282023/3/28数据仓库与数据挖
4、掘数据仓库与数据挖掘61.1 数据仓库的概念、特点与组成数据仓库的概念、特点与组成l数据仓库的组成:数据仓库的组成:l数据仓库数据库;数据仓库数据库;l数据抽取工具;数据抽取工具;l元数据:技术元数据与业务元数据;元数据:技术元数据与业务元数据;l访问工具;访问工具;l数据集市(数据集市(Data Marts););l数据仓库管理;数据仓库管理;l信息发布系统。信息发布系统。2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘7数据仓库的组成数据仓库的组成l数据仓库数据库数据仓库数据库l核心核心l是数据信息存放的地方是数据信息存放的地方l对数据提供存取和检索支持对数据提供存
5、取和检索支持l数据抽取工具数据抽取工具l提取数据,进行转换、整理,再存放提取数据,进行转换、整理,再存放l转换的内容:转换的内容:l删除对决策分析没有意义的数据删除对决策分析没有意义的数据l转换到统一的数据名称和定义转换到统一的数据名称和定义l计算统计和衍生数据计算统计和衍生数据l填补缺失数据填补缺失数据l统计不同的数据定义方式统计不同的数据定义方式2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘8数据仓库的组成数据仓库的组成l元数据元数据l描述数据仓库数据的结构和建立方法的数描述数据仓库数据的结构和建立方法的数据据l技术元数据技术元数据l设计和管理人员用于开发和管理数
6、据仓库时使设计和管理人员用于开发和管理数据仓库时使用的元数据用的元数据l业务元数据业务元数据l从单位业务的角度描述数据仓库的元数据从单位业务的角度描述数据仓库的元数据2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘9数据仓库的组成数据仓库的组成l访问工具访问工具l为用户访问数据仓库提供的手段为用户访问数据仓库提供的手段l数据集市(数据集市(Data Marts)l为特定的应用目的,从数据仓库中独立出为特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或者主来的一部分数据,也称为部门数据或者主题数据题数据2023/3/282023/3/28数据仓库与数据挖掘
7、数据仓库与数据挖掘10数据仓库的组成数据仓库的组成l数据仓库管理数据仓库管理l安全与权限的管理安全与权限的管理l数据更新的跟踪数据更新的跟踪l数据质量的检查数据质量的检查l元数据的管理与更新元数据的管理与更新ll信息发布系统信息发布系统l把数据仓库中的数据或其他相关数据发给把数据仓库中的数据或其他相关数据发给不同的地点或用户不同的地点或用户2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘111.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的概念数据挖掘的概念l数数据据挖挖掘掘(Data Mining),就就是是从从大大量量数数据据中中获获取取有有效效的的、新新
8、颖颖的的、潜潜在在有有用用的的、最终可理解的模式的非平凡过程。最终可理解的模式的非平凡过程。l简简单单的的说说,数数据据挖挖掘掘就就是是从从大大量量数数据据中中提提取取或或“挖挖掘掘”知知识识,又又被被称称为为数数据据库库中中的的知知 识识 发发 现现(Knowledge Discovery in Database,KDD)2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘121.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据挖掘的方法:数据挖掘的方法:l直接数据挖掘直接数据挖掘l对某个变量建立一个模型对某个变量建立一个模型l包括分类、估值和预测包括分类、估值和预测l
9、间接数据挖掘间接数据挖掘l在所有的变量中建立起某种关系在所有的变量中建立起某种关系l如相关性分组或关联规则,聚集聚类,如相关性分组或关联规则,聚集聚类,描述和可视化,及复杂数据挖掘描述和可视化,及复杂数据挖掘2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘131.2 数据挖掘的概念与方法数据挖掘的概念与方法l数据仓库与数据挖掘的关系数据仓库与数据挖掘的关系l若若将将数数据据仓仓库库(Data Warehouse)比比作作矿矿井井,那那么么数数据据挖挖掘掘(Data Mining)就是深入矿井采矿的工作就是深入矿井采矿的工作 l数数据据挖挖掘掘是是从从数数据据仓仓库库中中
10、找找出出有有用用信信息息的一种过程与技术的一种过程与技术 2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘141.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l联联机机事事务务处处理理(OLTP)与与联联机机分分析析处理(处理(OLAP)的比较)的比较2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘151.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l OLAP技术的有关概念技术的有关概念 l多维数据集:一个数据集合多维数据集:一个数据集合l维维度度:一一个个实实体体的的一一些些重重要要属属性性定定义义为为维维dimens
11、ionl度度量量值值:度度量量指指标标,是是多多维维数数据据集集中中的的一一组组数数值值l多多维维分分析析:对对以以“维维”形形式式组组织织起起来来的的数数据据采采取取切切片片,切切块块,钻钻取取和和旋旋转转等等各各种种分分析析动动作作,以求分析数据以求分析数据2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘161.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品lOLAP根据其存储数据的方式可分为三类:根据其存储数据的方式可分为三类:lROLAP,relational OLAPl事实表、维表事实表、维表lMOLAP,multidimensional OLAPl
12、HOLAP,hybrid OLAPlOLAP工具工具 l针针对对特特定定问问题题的的联联机机数数据据访访问问与与分分析析,通通过过多多维的方式对数据进行分析、查询和报表维的方式对数据进行分析、查询和报表2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘171.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节l数据抽取;数据抽取;l数据存储与管理数据存储与管理l数据表现数据表现 2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘18数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节
13、l数据抽取数据抽取l数据进入数据仓库的入口数据进入数据仓库的入口l抽取技术包括:互连、复制、增量、抽取技术包括:互连、复制、增量、转换、调度和监控转换、调度和监控l实现抽取实现抽取l专业的数据抽取工具专业的数据抽取工具l直接开发抽取接口程序直接开发抽取接口程序2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘19数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节l数据存储与管理数据存储与管理l数据仓库面对的是大量数据的存储和数据仓库面对的是大量数据的存储和管理管理l并行处理并行处理l针对决策支持查询的优化针对决策支持查询的优化l支持多维分析的查询模式支持多维分析的查
14、询模式2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘20数据仓库实施中的三个关键环节数据仓库实施中的三个关键环节l数据表现数据表现l数据仓库的展示界面数据仓库的展示界面l数据表现的工具数据表现的工具l多维分析多维分析l统计分析统计分析l数据挖掘数据挖掘2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘211.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l数据仓库实施方法论数据仓库实施方法论l数据仓库不是简单的数据或产品堆砌,数据仓库不是简单的数据或产品堆砌,它是一个综合集成解决方案和系统工程。它是一个综合集成解决方案和系统工程。在数据
15、仓库的实施过程中,技术决策至在数据仓库的实施过程中,技术决策至关重要,技术选择或决策错误很可能导关重要,技术选择或决策错误很可能导致项目实施失败致项目实施失败 2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘221.3 数据仓库的技术、方法与产品数据仓库的技术、方法与产品l常用数据仓库产品比较常用数据仓库产品比较l常用常用OLAP工具介绍工具介绍;l各数据仓库厂商提供的解决方案各数据仓库厂商提供的解决方案 IBM、Oracle、NCR、Microsoft、SAS等等2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘232023/3/282023/3
16、/28数据仓库与数据挖掘数据仓库与数据挖掘241.4 数据仓库系统的体系结构数据仓库系统的体系结构l典型的数据仓库系统典型的数据仓库系统l数据源数据源l数据存储和管理数据存储和管理lOLAP服务器服务器l前端工具和应用前端工具和应用2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘251.4 数据仓库系统的体系结构数据仓库系统的体系结构l数据仓库系统的体系结构的分类数据仓库系统的体系结构的分类l两两层层架架构构(Generic Two-Level Architecture)l独立型数据集市(独立型数据集市(Independent Data Mart)l依依 赖赖 型型 数
17、数 据据 集集 市市 和和 操操 作作 型型 数数 据据 存存 储储(Dependent Data Mart and Operational Data Store)l逻逻辑辑型型数数据据集集市市和和实实时时数数据据仓仓库库(Logical Data Mart and Real-Time Data Warehouse)2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘261.4 数据仓库系统的体系结构数据仓库系统的体系结构l两层数据仓库体系结构两层数据仓库体系结构 两层数据仓库体系结构两层数据仓库体系结构 l构造步骤构造步骤l数据是从各种内外部的源系统文件或数据库中抽取得到
18、数据是从各种内外部的源系统文件或数据库中抽取得到的的l不同源系统中的数据在加载到数据仓库之前需要被转换不同源系统中的数据在加载到数据仓库之前需要被转换和集成和集成l建立为决策支持服务的数据库建立为决策支持服务的数据库l用户通过用户通过SQL查询语言或分析工具访问数据仓库,结果查询语言或分析工具访问数据仓库,结果又会反馈到数据仓库和操作型数据库中又会反馈到数据仓库和操作型数据库中2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘272023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘281.4 数据仓库系统的体系结构数据仓库系统的体系结构l基于独立数据集
19、市的数据仓库体系结基于独立数据集市的数据仓库体系结构构 基于独立数据集市的数据仓库体系结构基于独立数据集市的数据仓库体系结构 l独立型数据集市架构的局限性包括独立型数据集市架构的局限性包括:l高代价的冗余数据和重复处理工作高代价的冗余数据和重复处理工作l 数据集市可能是不一致的数据集市可能是不一致的l 没有能力下钻到更小的细节或其他数据集市有关的事没有能力下钻到更小的细节或其他数据集市有关的事 实或者共享的数据信息库实或者共享的数据信息库l 规模扩大的成本高规模扩大的成本高2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘292023/3/282023/3/28数据仓库与
20、数据挖掘数据仓库与数据挖掘301.4 数据仓库系统的体系结构数据仓库系统的体系结构l基于依赖型数据集市和操作型数据存储基于依赖型数据集市和操作型数据存储(ODS)(ODS)的数据的数据仓库体系结构仓库体系结构 2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘311.4 数据仓库系统的体系结构数据仓库系统的体系结构l逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市和实时数据仓库的体系结构 逻辑型数据集市和实时数据仓库的体系结构逻辑型数据集市和实时数据仓库的体系结构 l特征特征l逻辑数据集市并不是物理上分离的数据库逻辑数据集市并不是物理上分离的数据库l数据被放到数据仓库
21、而不是分离的分段传数据被放到数据仓库而不是分离的分段传输区域中输区域中l新的数据集市可以非常快速地创建新的数据集市可以非常快速地创建l数据集市总是最新的数据集市总是最新的2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘322023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘331.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的产生数据仓库的产生l数据库数据库l关系数据库关系数据库l联机事务处理联机事务处理l联机分析处理联机分析处理2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘34数据仓库的产生数据仓库的
22、产生l数据仓库的产生数据仓库的产生l联联机机事事务务处处理理系系统统(业业务务系系统统)刚刚上上线线时时,查查询询不不到到数数据据是是因因为为数数据据太太少少了了,而而几几十十年年后后查查询询不不到到有有关关数数据据是是因为数据太多了因为数据太多了l专专门门为为业业务务数数据据的的统统计计分分析析建建立立一一个个数数据据中中心心,它它的的数数据据从从联联机机事事务务处处理理系系统统中中来来、从从异异构构的的外外部部数数据据源源来来、或或从从脱脱机机的的历历史史业业务务数数据据中中来来,这这个个数数据据中中心心也也是是一一个个联联机机系系统统,它它专专门门为为分分析析统统计计和和决决策策支支持持
23、应应用用服服务务,通通过过它它可可获获取取决决策策支支持持和和联联机机分分析析应应用用所所需需要要的的一一切切数数据据。这个数据中心就叫做数据仓库这个数据中心就叫做数据仓库l数数据据仓仓库库就就是是一一个个作作为为决决策策支支持持和和联联机机分分析析应应用用系系统统数数据据源源的的结结构构化化数数据据环环境境,数数据据仓仓库库要要研研究究和和解解决决的的问问题题就是从数据库中获取信息的问题就是从数据库中获取信息的问题 数据仓库的产生数据仓库的产生l数据仓库与数据库的关系数据仓库与数据库的关系l关系数据库系统是数据仓库的核心数据环关系数据库系统是数据仓库的核心数据环境境l关系数据库是针对联机事务
24、处理关系数据库是针对联机事务处理l数据仓库是针对联机分析处理数据仓库是针对联机分析处理2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘352023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘361.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的发展数据仓库的发展l以报表为主以报表为主l以分析为主以分析为主 l以预测模型为主以预测模型为主 l以营运导向为主以营运导向为主 l以实时数据仓库、自动决策应用为主以实时数据仓库、自动决策应用为主 2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘371.5 数据仓库的
25、产生、发展与未来数据仓库的产生、发展与未来l数据仓库的未来数据仓库的未来l数据抽取方面数据抽取方面l未来的技术发展将集中在系统集成化方面未来的技术发展将集中在系统集成化方面l将将互互连连、转转换换、复复制制、调调度度、监监控控纳纳入入标标准准化化的的统统一一管理管理l以适应数据仓库本身或数据源可能的变化以适应数据仓库本身或数据源可能的变化l使系统更便于管理和维护使系统更便于管理和维护2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘381.5 数据仓库的产生、发展与未来数据仓库的产生、发展与未来l数据仓库的未来数据仓库的未来l数据管理方面数据管理方面l未未来来的的发发展展
26、将将使使数数据据库库厂厂商商明明确确推推出出数数据据仓仓库库引引擎擎,作作为为数数据据仓仓库库服服务务器器产产品品与与数数据据库库服服务务器并驾齐驱器并驾齐驱l数据表现方面数据表现方面l数数理理统统计计的的算算法法和和功功能能将将普普遍遍集集成成到到联联机机分分析析产品中,并与产品中,并与Internet/WebInternet/Web技术紧密结合技术紧密结合1.6 小结小结l数据仓库的概念、特点、构成、分类数据仓库的概念、特点、构成、分类l数据挖掘数据挖掘l数据处理数据处理2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘39作业作业l习题习题1至习题至习题122023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘40ROLAP2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘41MOLAP2023/3/282023/3/28数据仓库与数据挖掘数据仓库与数据挖掘42演讲完毕,谢谢观看!