《第二章 数据仓库的技术与开发-hym.ppt》由会员分享,可在线阅读,更多相关《第二章 数据仓库的技术与开发-hym.ppt(132页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第二章第二章数据仓库的技术与开发数据仓库的技术与开发数据仓库的技术与开发数据仓库的技术与开发数据仓库的体系结构元数据数据仓库的数据模型粒度和分割数据仓库和开发流程总线型结构的数据仓库数据仓库的技术与开发数据仓库的技术与开发数据仓库的体系结构数据仓库的体系结构元数据元数据数据仓库的数据模型数据仓库的数据模型粒度和分割粒度和分割数据仓库和开发流程数据仓库和开发流程总线型结构的数据仓库总线型结构的数据仓库数据仓库的体系结构数据仓库的体系结构用户眼中的数据仓库结构用户眼中的数据仓库结构数据仓库系统的体系结构数据仓库系统的体系结构数据集市数据集市数据仓库的体系结构数据仓库的体系结构用户眼中的数据仓库结构
2、用户眼中的数据仓库结构数据仓库系统的体系结构数据仓库系统的体系结构数据集市数据集市组成部分组成部分数据源数据源数据仓库的数据存储数据仓库的数据存储数据仓库的应用工具数据仓库的应用工具可视化用户界面可视化用户界面图示图示数据仓库的数据存储应用工具应用工具1.OLAP2.数据挖掘3.其它用户界面用户界面内部数据源外部数据源数据源数据源抽取、净化、变换抽取、净化、变换提供原始数据企业内部信息企业外部信息对存放在数据仓库中的数据进行分析处理数据仓库的用户能够方便直观与系统进行交互支持比较复杂的查询分析从大量数据中寻找尚未发现的知识从数据源中获取有效数据,进行有效组织,存储在数据仓库中数据仓库的体系结构
3、数据仓库的体系结构用户眼中的数据仓库结构用户眼中的数据仓库结构数据仓库系统的体系结构数据仓库系统的体系结构数据集市数据集市数据仓库系统的体系结构数据仓库系统的体系结构数据仓库体系结构的框架数据仓库体系结构的框架数据仓库的技术体系结构数据仓库的技术体系结构数据仓库系统的体系结构数据仓库系统的体系结构数据仓库体系结构的框架数据仓库体系结构的框架数据仓库的技术体系结构数据仓库的技术体系结构数据仓库体系结构的框架数据仓库体系结构的框架数据体系结构系统体系结构技术体系结构数据仓库体系结构的框架数据仓库体系结构的框架数据体系结构数据体系结构系统体系结构系统体系结构技术体系结构技术体系结构商务需求商务需求(
4、内容)(内容)进行商务分析与进行商务分析与决策的信息需求决策的信息需求对网络环境、软硬对网络环境、软硬件平台的性能要求件平台的性能要求如何获得信息?如何获得信息?如何使用信息?如何使用信息?体系结构体系结构模型模型(系统平台系统平台)如如何何用用多多维维数数据据模模型型来来表表达达信信息息,应应该该包包括括哪哪些些事事实实表表和和维维表表?事事实实表表和和维维表表怎怎样样连接?连接?选选择择什什么么样样的的网网络络环环境境和和软软硬硬件件平平台台?数数据据具具体体存存放放在在哪哪里里?系系统统能能否否满满足足数数据据计计算算、数数据据存存储储和和数数据据传递的性能要求传递的性能要求如如何何将将
5、原原始始数数据据变变换换成成所所需需的的信信息息,在在适适当当的的时时间间以以正正确确的的内内容容和和恰恰当的格式存储或输出当的格式存储或输出?实现方法实现方法创创建建数数据据库库,建建立立相相应应的的表表、索索引引,进进行行数数据据库库的维护的维护安安装装测测试试网网络络环环境境和软硬件平台和软硬件平台对对原原始始数数据据进进行行抽抽取取、清清洗洗、转转换换和和存存储储,生生成成分分析析报报表表等等数数据据处处理理结果提供给用户。结果提供给用户。数据仓库系统的体系结构数据仓库系统的体系结构数据仓库体系结构的框架数据仓库体系结构的框架数据仓库的技术体系结构数据仓库的技术体系结构数据仓库的技术体
6、系结构数据仓库的技术体系结构后台数据预处理数据仓库数据管理数据仓库的前台查询服务数据仓库的技术体系结构数据仓库的技术体系结构内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据三大过程:三大过程:预处理数据管理查询服务数据仓库的技术体系结构数据仓库的技术体系结构-预处理预处理内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据
7、功能:功能:对数据源中的数据进行预处理数据仓库的技术体系结构数据仓库的技术体系结构-数据管数据管理理内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据功能:功能:完成数据仓库的建模、确定数据的粒度级别、指定数据仓库的物理存储模式、确保数据仓库的运行效率数据仓库的技术体系结构数据仓库的技术体系结构-数据管数据管理理数据存储数据存储:数据源主题数据数据准备区查询服务数据数据源主题数据最终查询结果数据准备区查询服务数据数据仓库的技术体系结构数据仓库的技术体系结构-
8、应用服务应用服务内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据功能功能:提供各种应用工具来对数据仓库中的数据进行处理数据仓库的技术体系结构数据仓库的技术体系结构-应用服应用服务务工具分类工具分类数据挖掘工具特别查询工具OLAP交互报告静态报告内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据数据仓库的体系结构数据仓库的
9、体系结构用户眼中的数据仓库结构用户眼中的数据仓库结构数据仓库系统的体系结构数据仓库系统的体系结构数据集市数据集市数据集市数据集市数据集市的概念数据集市的概念数据集市的分类数据集市的分类数据集市数据集市数据集市的概念数据集市的概念数据集市的分类数据集市的分类数据集市的概念数据集市的概念数据集市我们可以把它理解成为部门级的数据仓库数据仓库是数据集市的集合数据集市数据集市数据集市的概念数据集市的分类数据集市的分类数据集市的分类独立的数据集市从属的数据集市数据集市的分类数据集市的分类独立的数据集市从属的数据集市独立的数据集市独立的数据集市如果一个数据集市如果一个数据集市不依赖于中央数据不依赖于中央数据
10、仓库仓库,则这个数据集则这个数据集市为市为独立数据集市独立数据集市。独立数据集市可能独立数据集市可能会造成各数据集市会造成各数据集市中的数据不一致、中的数据不一致、形成信息孤岛、维形成信息孤岛、维护困难等问题。护困难等问题。数据源数据源独立独立数据集市数据集市独立独立数据集市数据集市数据源数据源数据源数据源应用工具应用工具应用工具应用工具应用工具应用工具数据集市的分类数据集市的分类独立的数据集市从属的数据集市从属的数据集市从属的数据集市从从数据仓库中获数据仓库中获得数据,并根据得数据,并根据部门的分析领域部门的分析领域和查询功能进行和查询功能进行重新组织和优化重新组织和优化的数据集市称为的数据
11、集市称为从属数据集市。从属数据集市。保证了各个数据保证了各个数据集市间和数据仓集市间和数据仓库中数据的一致库中数据的一致性。性。数据源数据源从属从属数据集市数据集市从属从属数据集市数据集市数据源数据源数据源数据源应用工具应用工具应用工具应用工具应用工具应用工具数据仓库内部数据源应用工具OLAP数据挖掘其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库的数据存储数据仓库管理工具数据集市数据集市查询服务数据元数据元数据数据仓库的技术与开发数据仓库的技术与开发数据仓库的体系结构元数据数据仓库的数据模型粒度和分割数据仓库和开发流程总线型结构的数据仓库元数据元
12、数据元数据的定义元数据的主要作用元数据的分类元数据元数据元数据的定义元数据的主要作用元数据的分类元数据的定义元数据的定义定义一:关于数据的数据。定义二:元数据的描述前台元数据:更具描述性质,它帮助查询工具和报表生成更顺利地工作,它主要出于终端用户考虑。后台元数据:与过程相关,它指导着数据抽取、净化和装载的过程。元数据元数据元数据的定义元数据的主要作用元数据的分类元数据的主要作用元数据的主要作用管理数据仓库:利用元数据来存储和更新数据。帮助使用数据仓库:用户利用元数据来了解、访问数据。元数据元数据元数据的定义元数据的主要作用元数据的分类元数据的分类元数据的分类据内容分:据作用分:元数据的分类元数
13、据的分类-内容内容元数据无处不在内部数据源应用工具应用工具OLAPOLAP数据挖掘数据挖掘其它其它外部数据源用户界面用户界面数据源数据源数据预处理工具抽取/清洗转换/加载数据准备区数据仓库数据仓库的数据存储的数据存储数据仓库管理工具数据数据集市集市数据数据集市集市查询查询服务数据服务数据元数据数据源元数据源元数据数据预处理数预处理数据元数据据元数据数据仓库数据仓库主题数据主题数据元数据元数据查询服务查询服务元数据元数据元数据的分类元数据的分类-作用作用管理元数据:创建和维护数据仓库(包括数据源元数据、预处理数据元数据和数据仓库主题数据元数据三类)用户元数据:帮助用户进行查询(包括查询服务元数据
14、)数据仓库的技术与开发数据仓库的技术与开发数据仓库的体系结构元数据数据仓库的数据模型粒度和分割数据仓库和开发流程总线型结构的数据仓库数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模数据库的设计数据库的设计需求收集和分析设计概念结构设计逻辑结构数据模型优化设计物理结构设计评价性能预测物理实现实验性运行使用维护数据库不不满意满意需求分析阶段需求分析阶段概念设计阶
15、段概念设计阶段逻辑设计阶段逻辑设计阶段物理设计阶段物理设计阶段数据库实施阶段数据库实施阶段数据库运行维护阶段数据库运行维护阶段不满意不满意数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模数据仓库的数据建模数据仓库的数据建模现实世界现实世界概念世界概念世界逻辑世界逻辑世界物理世界物理世界身高身高特性特性属性属性列列(字段、数据项字段、数据项)张三张三个体个体实体实体记录记录客户客户整体整体同质同质总体总体表表文件文件客户与产品客户与产品整体间联系整体间联系异质总体异质总体数据库数据库数据仓库的数据建模
16、数据仓库的数据建模现实世界现实世界概念模型概念模型逻辑模型逻辑模型物理模型物理模型数据仓库数据仓库元元数数据据模模型型数数据据粒粒度度模模型型数据建模的三个层次数据建模的三个层次:概念模型概念模型逻辑模型逻辑模型物理模型物理模型数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模概念建模概念建模概念建模的目的概念建模的工作内容概念建模的方法概念建模的例子概念建模概念建模概念建模的目的概念建模的工作内容概念建模的方法概念建模的例子概念建模的目的概念建模的目的 确定数据仓库中应该包含的数据类及其相互关系,而
17、不必考虑具体技术条件的限制。概念建模概念建模概念建模的目的概念建模的工作内容概念建模的方法概念建模的例子概念建模的工作内容概念建模的工作内容确定系统应包含的主题域确定数据挖掘中各主题的要素及其描述属性分析问题时所关心的事实分析问题时的各种观察角度描述事实及观察角度的属性对对数据仓库系统设计的数据仓库系统设计的需求分析需求分析概念建模概念建模概念建模的目的概念建模的工作内容概念建模的方法概念建模的例子概念建模的方法概念建模的方法传统方法ER图缺点多维数据模型(星型模型)维度事实度概念建模的方法概念建模的方法传统方法ER图缺点多维数据模型(星型模型)维度事实度传统方法传统方法ERER图图从数据模型
18、的角度看,所有实体之间的关系是对等的。但是实际上数据仓库的实体绝不会是相互对等的。供应商供应商客户客户订单订单发货发货产品产品概念建模的方法概念建模的方法传统方法ER图缺点多维数据模型(星型模型)维度事实度缺点缺点如左图,代表供应商、客户、产品和发货的实体数量只是一些说明订单的实体,而订单实体则是管理者所关心的分析对象。这样,在数据仓库的应用中将有大量的数据载入订单实体表,而其他实体表中的数据载入量则相对较少。因此需要一种不同的数据模型设计处理方式,来管理数据仓库中载入 某个实体的大量数据的设计结构。这就是多维数据模型供应商供应商客户客户订单订单发货发货产品产品概念建模的方法概念建模的方法传统
19、方法ER图缺点多维数据模型(星型模型)维度事实度多维数据模型(星型模型)多维数据模型(星型模型)它是一种能够清楚表达分析领域的数据模型。它包括两种建模要素:观察事物的角度-维度观察得到的事实数据-事实事实事实维度维度3 3维度维度4 4维度维度2 2维度维度1 1概念建模概念建模概念建模的目的概念建模的工作内容概念建模的方法概念建模的例子概念建模的例子概念建模的例子 问题:问题:为了对应日趋激烈的市场竞争,商场经理需要更加准确地了解商场的经营状况,跟踪市场需求,更加合理地定制商品采购与销售策略。概念建模的例子概念建模的例子主题域的确定:商场经理迫切地需求在于把握商场的经营状况,这主要是商场商品
20、的采购情况和销售情况。一般经理感兴趣或需要进行分析主要有:顾客的购买趋势商品供应市场的变化趋势供应商信用等级情况要进行以上分析,所需要的数据包括:商品销售数据商品采购数据商品库存数据顾客数据供应商数据概念建模的例子概念建模的例子确定各主题的事实和维度(以商品销售为例)销售事实销售量销售额时间维日期日月年商品维商品编号商品名称子类大类顾客维顾客编号顾客名性别年龄文化程度概念建模的例子(概念建模的例子(描述属性描述属性)对象名对象名类型类型属性组属性组销售事销售事实实事实事实销售量,销售额销售量,销售额时间时间维度维度日期,日,月,年日期,日,月,年商品商品维度维度商商品品编编号号,商商品品名名称
21、称,子子类类,大大类类,销销售售单价等单价等顾客顾客维度维度顾顾客客编编号号,顾顾客客名名,性性别别,年年龄龄,文文化化程程度,住址,电话等度,住址,电话等概念建模的例子概念建模的例子练习:以商品采购商品采购为例确定各主题的事实和维度采购事实采购量采购额时间维日期日月年商品维商品编号商品名称子类大类顾客维顾客编号顾客名性别年龄文化程度供应商维供应商编号供应商名信用等级数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模逻辑建模逻辑建模逻辑模型是概念模型到物理模型的一个过渡逻辑模型的作用逻辑模型的描述方法
22、逻辑模型的工作内容逻辑建模逻辑建模逻辑模型是概念模型到物理模型的一个过渡逻辑模型的作用逻辑模型的描述方法逻辑模型的工作内容逻辑模型的作用逻辑模型的作用由于概念模型并不能直接建立数据仓库的物理模型,所以我们必须通过逻辑模型来指导数据仓库的物理实施。逻辑建模逻辑建模逻辑模型是概念模型到物理模型的一个过渡逻辑模型的作用逻辑模型的描述方法逻辑模型的工作内容逻辑模型的描述方法逻辑模型的描述方法逻辑模型的描述方法是利用关系模型,即用一系列的关系模式来表达数据仓库概念模型中的事实实体和维度实体(另外还要考虑粒度)逻辑建模逻辑建模逻辑模型是概念模型到物理模型的一个过渡逻辑模型的作用逻辑模型的描述方法逻辑模型的
23、工作内容逻辑模型的工作内容逻辑模型的工作内容粒度层次划分数据分割策略的确定关系模型的定义*数据源及数据抽取模型的确定*逻辑模型的工作内容逻辑模型的工作内容粒度层次划分数据分割策略的确定关系模型的定义*数据源及数据抽取模型的确定*数据分割策略的确定数据分割策略的确定数据分割策略是指把逻辑上整体的数据分割成较小的、可以独立管理的物理单元进行存储的方法。比如,由于超市管理者经常关心的问题是商品在某个季节的销售情况,从而我们将超市的销售数据按季节进行分割,可以大大减少数据检索的范围,从而达到减少物理I/O次数,提高系统性能的目的逻辑模型的工作内容逻辑模型的工作内容粒度层次划分数据分割策略的确定关系模型
24、的定义*数据源及数据抽取模型的确定*关系模型的定义关系模型的定义关系模型包括事实表的关系模式和维度表的关系模式,分别包含列名、含义、列的码属性、取值范围和类型大小等。销售事实表的关系模式销售事实表的关系模式列名列名含义含义列的码属性列的码属性取值范围取值范围类型与大类型与大小小TimeIDTimeID时间码时间码主主码码列列,外外码列码列正整数正整数IntegerIntegerProductIProductID D产品码产品码主主码码列列,外外码列码列正整数正整数IntegerIntegerCustomerCustomerIDID顾客码顾客码主主码码列列,外外码列码列正整数正整数Integer
25、IntegerSalesQuaSalesQuantityntity销售量销售量正数正数Float(6,2)Float(6,2)SalesAmoSalesAmountunt销售额销售额正金额数正金额数MoneyMoney商品维度表的关系模式商品维度表的关系模式 列名列名含义含义列的码属性列的码属性取值范围取值范围类型与大小类型与大小ProductIProductID D商品码商品码主码列主码列正整数正整数IntegerIntegerProductNProductNumberumber商商 品品 编编号号实实际际商商品品编号编号Char(10)Char(10)ProductNProductName
26、ame商品名商品名实实际际商商品品名称名称Char(20)Char(20)SubcategSubcategoryory子类子类五位字符五位字符Char(5)Char(5)CategoryCategory大类大类五位字符五位字符Char(5)Char(5)SalePricSalePrice e售价售价正金额数正金额数MoneyMoney练习练习描述顾客维度表的关系模式逻辑模型的工作内容逻辑模型的工作内容粒度层次划分数据分割策略的确定关系模型的定义*数据源及数据抽取模型的确定*数据抽取模型的过程数据抽取模型的过程数据源中抽取数据到准备区中从哪些数据源中抽取数据数据源是基于什么系统平台进行数据抽取的
27、过滤和连接将数据准备区中的数据经过各种清理工作加载到数据仓库中去清理工作包括格式转换、类型转换、统一单位、按粒度层次进行汇总、聚集等。数据抽取模型的过程的例子数据抽取模型的过程的例子数据源中抽取数据到准备区中系统平台系统平台数据库名数据库名表名表名备注备注Windows/SQL Windows/SQL ServerServerMartMartSaledataSaledata销售记录表销售记录表Windows/SQL Windows/SQL ServerServerMartMartProductProduct商品表商品表Windows/AccesWindows/Access sCustomerC
28、ustomerCustomerCustomer顾客资料顾客资料表名与列表名与列名名过滤与连过滤与连接条件接条件比较值比较值复合复合条件条件备注备注Saledata.Saledata.datedate 2000-12-2000-12-3131ANDAND取取20002000年以后年以后的数据的数据数据抽取模型的过程的例子数据抽取模型的过程的例子将准备区中的数据加载到数据仓库中目标表列目标表列源表列源表列转换公式转换公式备注备注Sales_fact.SaSales_fact.SalesQuantitylesQuantitySaledata.quanSaledata.quantitytity直接转换
29、直接转换销售数量销售数量Time_by_day.mTime_by_day.monthonthSaledata.saleSaledata.saledatedate取月份取月份销售月份销售月份数据仓库的数据模型数据仓库的数据模型-对现实世界进行抽象的工具对现实世界进行抽象的工具类似数据库的设计数据仓库的数据建模概念建模逻辑建模物理建模物理建物理建模模物理建模考虑要素物理建模过程物理建物理建模模物理建模考虑要素物理建模过程物理建模考虑要素物理建模考虑要素数据仓库的性能问题数据粒度与分割合理冗余进一步分割数据预格式化、预分配建立人工关系预连接表提高对数据仓库中数据的I/O效率因此,进行数据仓库的物理设
30、计就是要物理地组织好数据,因此,进行数据仓库的物理设计就是要物理地组织好数据,以访问尽可能少的数据块返回尽可能多的有效记录以访问尽可能少的数据块返回尽可能多的有效记录物理建模物理建模物理建模考虑要素物理建模过程物理建模过程物理建模过程事实表模型设计维模型设计例子例子帐号帐号 姓名 性别 开户时间帐号帐号 省 市 县 街道 邮政编码客户编号帐号帐号 信用额度 利息帐号帐号 最小存款 最小余额帐号帐号 责任人 种类抵押贷款非抵押贷款帐号帐号 地址 委托人 评估帐号帐号 时间 制造商 型号帐号帐号 帐号 信用卡限额 信用卡类型签字签字贷款贷款存款存款担保担保房屋贷款房屋贷款汽车贷款汽车贷款信用卡信用
31、卡金融企业客户主题逻辑模型金融企业客户主题逻辑模型事实表模型设计事实表模型设计客户事实表客户基本情况表(帐号Integer9,姓名Character12,出生地Character20,开户时间Date)客户变动情况表(帐号Integer9,省Character20,市Character20,县Character20,街道Character20,邮政编码Character6)客户贷款事实表客户房屋贷款情况表(帐号Integer9,地址Character50,委托人Character12,评估Memo)客户汽车贷款情况表(帐号Integer9,时间Date,制造商Character40,型号Int
32、eger10,颜色Character8)客户存款事实表客户存款表1(帐号Integer9,时间Date,最小存款额Number7.2,最小余额Number7.2)客户存款表2(帐号Integer9,时间Date,最小存款额Number7.2,最小余额Number7.2)客户担保事实表客户担保表1(帐号Integer9,时间Date,责任人Character12,种类Character2,担保金额Number7.2)维模型设计客户主题维度表模型时间纬度表(年Date,月date,日Date)地点纬度表(省Character20,市Character20,县Character20,街道Charac
33、ter20)贷款纬度表(抵押贷款Character20,非抵押贷款Character20)粒度和分割粒度和分割粒度:分割:指数据仓库的数据单位中保存数据的细化或综合程度的级别。粒度可以影响数据仓库所能回答的查询类型,同时决定了存放在数据仓库中数据量的大小和查询效率。是把大的数据集划分成多个较小的数据集,并分散到不同的物理单元进行存储,使它们能独立地被处理。它便于管理,并可以提高访问效率。粒度粒度粒度的确定粒度划分实例粒度粒度粒度的确定粒度划分实例粒度的确定粒度的确定比较高粒度和低粒度确定粒度大小的考虑原则粒度的实际应用粒度的确定粒度的确定比较高粒度和低粒度确定粒度大小的考虑原则粒度的实际应用比
34、较高粒度和低粒度比较高粒度和低粒度高高粒度粒度低低粒度粒度存储效率存储效率更少的存储空间更多的存储空间查询效率查询效率效率高效率低查询能力查询能力弱强粒度的确定粒度的确定比较高粒度和低粒度确定粒度大小的考虑原则粒度的实际应用确定粒度大小的考虑原则确定粒度大小的考虑原则如数据仓库的空间有限,则应考虑采用高粒度级别如追求数据仓库能回答的问题类型的能力,则应考虑采用低粒度级别如要减轻处理器的负担,提高查询效率,则应考虑采用高粒度级别如没有存储空间的限制,则可采用多重粒度级别粒度的确定粒度的确定比较高粒度和低粒度确定粒度大小的考虑原则粒度的实际应用粒度的实际应用粒度的实际应用一般普遍采用双重粒度级别一
35、个低粒度的“真实档案”细节数据一个轻度综合的较高的数据粒度级别数据仓库的存储空间与粒度划分策略对照表数据仓库的存储空间与粒度划分策略对照表数据量数据量(行数行数)粒度划分策略粒度划分策略数据量数据量(行数行数)粒度划分策略粒度划分策略10000000双重粒度并仔细设计双重粒度并仔细设计20000000双重粒度并仔细设计双重粒度并仔细设计1000000双重粒度双重粒度1000000双重粒度双重粒度100000仔细设计仔细设计100000仔细设计仔细设计10000不考虑不考虑10000不考虑不考虑一年数据一年数据五年数据五年数据粒度粒度粒度的确定粒度划分实例粒度划分实例粒度划分实例客户某某在5月1
36、日有无打电话给某某?客户某某在5月份市话通话次数是多少?某月杭州每户电话平均打多少个长途电话?客户电话客户名日期客户城市时间通话类型受话方号码开始时间结束时间话费标准客户电话客户名年份客户城市月份市话通话次数月租费市话通话费用国内长途通话次数国内长途费用客客户户通通话话记记录录客客户户通通话话综综合合信信息息练习练习航空公司希望分析在其服务旅客中的常客旅行趋势,可为公司正确定位航空市场中的常客市场,并且希望跟踪不同航线上旅客的季节变化情况和增长;跟踪不同航班上所消费的食品和饮料情况,帮助航空公司安排不同航线上的航班和食品供应。如果航空公司希望将旅客数据至少保留三年,公司每天有100条航线,共3
37、00架次飞行,每架次的旅客平均为100人。每架次的食品种类有50种,前后共采购1000种。食品受季节影响较大,每年食品价格呈现一种周期性变化。食品的详细数据只需要一年就可以。请为航空数据仓库设计一个合适的数据粒度模型数据分割数据分割数据分割的好处数据分割的标准数据分割的考虑因素数据分割的例子数据分割数据分割数据分割的好处数据分割的标准数据分割的考虑因素数据分割的例子数据分割的好处数据分割的好处容易重构方便建立更高的索引可以在用户能够容忍的限度内实施顺序扫描容易对数据仓库进行监控和管理数据分割数据分割数据分割的好处数据分割的标准数据分割的考虑因素数据分割的例子数据分割的标准数据分割的标准按时间分
38、割按地理位置分割按对象类别分割多种组合分割数据分割数据分割数据分割的好处数据分割的标准数据分割的考虑因素数据分割的例子数据分割的考虑因素数据分割的考虑因素数据量分析对象的性质数据分割数据分割数据分割的好处数据分割的标准数据分割的考虑因素数据分割的例子数据分割的例子数据分割的例子人寿保险公司进行的数据分割例子:1988年健康索赔1989年健康索赔1990年健康索赔1988年人寿保险索赔1989年人寿保险索赔1990年人寿保险索赔1988年意外伤亡索赔1989年意外伤亡索赔1990年意外伤亡索赔1989年1990年1988年按照日期和索赔类型进行分割数据仓库的开发流程数据仓库的开发流程规划与确定需
39、求开发概念模型开发逻辑模型设计体系结构数据库与元数据设计确定数据源抽取开发中间件填充与测试数据仓库数据仓库应用数据仓库维护数据仓库评价数据仓库开发过程规划分析阶段规划分析阶段设计实施设计实施阶段阶段使用维使用维护阶段护阶段数据仓库的开发流程数据仓库的开发流程数据仓库的规划与分析阶段数据仓库的设计与实施阶段*数据仓库的使用阶段数据仓库的设计与实施阶段数据仓库的设计与实施阶段数据仓库概念模型的设计数据仓库逻辑模型的设计数据仓库物理模型的设计源数据抽取、清洗、整理与装载设计数据表达及访问设计数据仓库维护方案的设计总线型结构的数据仓库总线型结构的数据仓库开发步骤统一的维统一的事实数据仓库总线总线型结构
40、的数据仓库总线型结构的数据仓库开发步骤统一的维统一的事实数据仓库总线开发步骤开发步骤首先建立部门级的数据集市同时统观全局,建立逻辑子集最后由多个数据集市集成企业级的数据仓库核心:使用统一的维和统一的事实核心:使用统一的维和统一的事实总线型结构的数据仓库总线型结构的数据仓库开发步骤统一的维统一的事实数据仓库总线统一的维统一的维统一的维是指该维可以在各数据集市中共享,且不论它与哪个事实表相连接,维的含义都完全相同。建立、公布、维护和完善统一的维是非常重要的,这是建立全局企业数据仓库的基础。总线型结构的数据仓库总线型结构的数据仓库开发步骤统一的维统一的事实数据仓库总线统一的事实统一的事实统一的事实是指一个事实数据如果在多个数据集市中出现,则该事实数据必须是一致的。一致性:计算口径一致计算单位一致含义一致总线型结构的数据仓库总线型结构的数据仓库开发步骤统一的维统一的事实数据仓库总线数据仓库总线数据仓库总线统统一一的的事事实实数据数据集市集市1数据数据集市集市i数据数据集市集市n数数据据仓仓库库统统一一的的维维