企业信息系统应用数据仓库技术研究32125.docx

上传人:jix****n11 文档编号:63018677 上传时间:2022-11-23 格式:DOCX 页数:12 大小:102KB
返回 下载 相关 举报
企业信息系统应用数据仓库技术研究32125.docx_第1页
第1页 / 共12页
企业信息系统应用数据仓库技术研究32125.docx_第2页
第2页 / 共12页
点击查看更多>>
资源描述

《企业信息系统应用数据仓库技术研究32125.docx》由会员分享,可在线阅读,更多相关《企业信息系统应用数据仓库技术研究32125.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、数据仓库技术在企业信息系统建设中的应用谢新建 宋晔 ( 北京理工大学 计算机科学系, 北京 100081)摘要:本文从建设原则、体系结构、关键环节等几个方面并结合某电信运营商的具体案例说明了数据仓库技术在国内电信业的应用,其中重点说明了异种数据源集成、ODS层的设计、ETL过程的设计、仓库模型设计、元数据管理以及专题数据挖掘等关键环节,对企业数据仓库项目的工程实施有一定的参考价值。关键词: 数据仓库;ETL;元数据;遗留系统中图分类号: TP311 文献标识码:A 1、 引言数据仓库技术是经过了十几年的研究与发展,在理论与工程实践上都取得了显著的成果。国际上许多重要的学术会议,如超大型数据库国

2、际会议(VLDB),数据工程国际会议(Data Engineering)等,都出现了大量专门研究数据仓库(Data Warehousing)、联机分析处理(On-Line Analytical Processing)、数据挖掘(Data Mining)1的论文,同时各大数据库厂商纷纷推出相应产品支持数据仓库,比如NCR、SAS、Oracle、IBM、Informix、Sybase等都提出了相应的数据仓库解决方案;另一方面 ,随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,为此出现了“数据爆炸,知识贫乏”的窘迫局面,有效地整合与充分利用现有的信息资源成为企业

3、提高核心竞争力的关键。本文以电信行业为例分析了企业经营分析与决策支持系统的建设应用,重点阐述数据仓库相关技术。2、 数据仓库系统的设计2.1、系统设计原则 (1) 通用化性原则 企业各地分支机构在组织构架、业务划分与侧重、其所运行的OLTP系统所依赖RDBMS、电信数据综合分析与决策支持系统所需要的数据源的类型与格式等不尽相同,这些都在企业数据综合分析与决策支持系统通用化设计的考虑范围之内。(2) 可扩展性原则随着业务内容的变化,业务系统的信息范围会发生变化,而对于作为统一信息服务平台应设计性能良好的体系结构,保证系统灵活的功能可扩展性。即在保持系统架构与原业务分析逻辑的前提下,系统能实现简洁

4、的分析主题与功能性扩充。 (3) 技术开放性原则为保护用户投资,通过透明访问技术,要保证系统能够独立于具体平台工具,对用户形成统一的功能和界面。在工具和平台的选择上给用户提供自由选择的最大余地。 (4) 兼容性原则 企业在信息化建设的过程所积累的信息资源是企业最为宝贵的财富,新建的经营决策分析系统应有效的兼容原系统,尤其兼容原系统的数据资源。2.2、系统体系结构根据上述的设计原则,并结合系统设计目标,提出电信经营分析与决策系统的总体结构如下: 图1 经营分析与决策支持系统总体结构如上图所示,异种数据源的企业应用集成接口实现异种数据源的透明访问,要支持各种关系数据库、平面文件、XML文件等形式。

5、根据企业的分析应用需求,通过设计与实现操作数据存储(ODS)2层来达到面向应用的企业级数据视图,系统也支持通过异种数据源的企业应用集成接口直接实施数据仓库的ETL过程。在基于元数据的控制逻辑的驱动下,系统实现从业务数据源和ODS的数据抽取、清洗、转换与加载的过程,以面向主题的形式来组织数据仓库的数据;数据集市是面向部门级分析而组织分析模型,一般组织成Cube立方体的形式向上支持在线多维分析。同时为了对特定问题(如欠费离网)进行深入分析,系统要建立相应的分析挖掘模型,一般采用星型与挖掘宽表的形式进行处理。元数据是关于数据的数据,即反映系统结构性本质信息的数据描述。一般认为包括技术元数据与业务元数

6、据,为了实现系统应用层对物理层的透明访问系统引入了元数据内联映射的概念,对于元数据的存储系统采用两层接口封装实现元数据存储的规范性与灵活性。从数据集市、挖掘模型以及从ODS获取的数据集与以元数据存储的报表模板、分析模板、门户Portal模板、XML Schema等结合来生成满足分析与决策需要的各种展现内容,包括预定义报表、即席查询(Ad Hoc)、OLAP分析、业务挖掘分析报告、企业经营指标监控Portal等,满足企业经营分析与决策支持的需要。系统实现了基于元数据的全程管理,涉及数据获取层、数据整合层以及数据展现层的全过程,支持分析模型的维护以及数据源的结构性变化,通过经营分析与决策支持监控门

7、户提供包括展现报表定制、元数据维护、门户定制、统一安全管理等管理服务。2.3、系统关键环节 2.3.1 异种数据源集成 企业在进行经营分析与决策支持系统建设时必须将遗留系统(Legacy System)3进行高效全面地集成,由于遗留系统是在企业发展的不同时期建设的,往往缺乏全局的规划,所以常表现为不同的操作系统平台、不同的数据库平台、不同的网络通信机制等等,形成了所谓的“信息孤岛”;系统中采用异种数据源的企业应用集成接口来实现对异种数据源的透明访问,包括数据源元数据访问以及业务操作数据访问。数据源分为在线数据源和离线数据源,在线数据源是指允许在线抽取的业务数据源,如营业数据,离线数据源是指不允

8、许直接在线抽取的数据源,如计费样单数据,采用以脱机平面文件数据的格式以FTP方式集成进本系统。对数据源实现元数据级的管理,数据源的连接类型(ODBC、OLEDB、JDBC、Native)、连接字符串以及该数据源的数据结构信息都以技术元数据的形式存储于元数据库中,通过控制台对其进行业务语义定义,使用户对整个企业的信息系统有了全面的掌握。 2.3.2 ODS层的设计 操作数据存储ODS(Operation Data Storage)是一个集成了来自不同数据库数据的环境。其目的是为终端用户提供一致的企业数据集成视图。它可以帮助用户轻松应对跨多个商业功能的操作挑战。它是面向主题的、集成的、近实时的数据

9、存储。设计ODS层的目的在于:改善了对关键操作数据库的存取;用户能获得对于收益、客户等主题的企业级的完整视图,有利于更好地通观全局;近实时的数据存储提供了查询产品与服务的能力;以更高的性能生成操作报告。设计ODS的核心是实现焦点主题全局试图应用,如企业的客户管理系统,可以CRM的理念建立以客户为中心的ODS客户主题视图,向上层提供高效的服务。而对于话费结算则采取了从综合结算系统中直接抽取到数据仓库的方式,抽取周期为结算周期,能完全满足决策分析的时间窗要求。 2.3.3 ETL过程的设计 数据抽取、转换和加载,是数据仓库实现过程中,进行数据由数据源系统向数据仓库加载的主要方法,对于整个数据处理过

10、程,实现如下: 数据抽取:从数据源系统抽取数据仓库系统需要的数据。数据抽取采用统一的接口,可以从数据库抽取数据,也可以从文件抽取,对于不同数据平台、不同的源数据形式、不同性能要求的业务系统以及不同数据量的源数据,可能采用的接口方式不同。为保证抽取效率,同时减少对生产运营系统的影响,对于大数据量的抽取,采取“数据分割、缩短抽取周期”的原则,对于直接的数据库抽取,采取协商接口表的方式,保障生产系统数据库的安全。为了满足经营分析系统进行分析、挖掘的需要,同时保证不能影响业务系统的性能,设计抽取策略、抽取方式、抽取时机、抽取周期非常关键。数据转换:数据转换是指对抽取的源数据根据数据仓库系统模型的要求,

11、进行数据的转换、清洗、拆分、汇总等处理,保证来自不同系统、不同格式的数据和信息模型的一致性和完整性,并按要求装入数据仓库。数据加载:数据加载就是将转换后的数据加载到数据仓库系统中。数据加载采用数据加载工具,也可以采用API编程进行数据加载。数据加载策略包括加载周期和数据追加策略。对于电信企业级应用我们采用对ETL工具DataStage进行功能封装,向上提供监控与调度接口。数据加载周期要综合考虑经营分析需求和系统加载的代价,对不同业务系统的数据采用不同的加载周期,但必须保持同一时间业务数据的完整性和一致性。 2.3.4 仓库模型设计 由于经营分析需求的不断变化,数据仓库中数据的存储必须采用主题分

12、域的方式和尽可能小的业务单元来进行数据的组织和存储,这样才能满足数据仓库的灵活性,适应需求的变化;同时任何一个信息系统都有整体性、结构性、层次性、相对性、可变性;将数据仓库的目标逻辑结构的设计体现系统的这些特征,是对目标系统正确反映的客观要求。 经过详细的业务需求分析,某电信运营商的业务可以按照不同的主题域分为八类:客户、帐务、资源、服务、客服、营销、服务使用、结算。其中,客户主题包含了与客户相关的基本信息,如客户的自然属性(姓名、年龄、职业等)、客户的分类信息(现有客户、潜在客户、大客户等)、客户的重要属性信息(信用度、忠诚度、消费层次等)。帐务主题中包含了与客户相关的费用信息,如明细账单、

13、综合帐单、帐本、帐户、付费记录、销帐流水等信息。资源主题中包含了网络资源和服务资源的信息及占用情况。服务主题中包含了产品、套餐、资费与优惠规则等的信息。客服主题中包含了与客户服务相关的部门信息、流程信息、分类信息等。营销主题中包含了销售机会、营销渠道、促销活动等相关信息。服务使用主题中描述客户购买和使用电信服务产品的信息,主要包含了用户、服务使用记录、清单等。结算主题中包含了结算清单、结算明细账单、合作服务方等信息。对于主题的建模采用星型结构,以事实表或概要表加相关维表来构成。 2.3.5 元数据管理元数据(Metadata)是关于数据、操纵数据的进程和应用程序的结构和意义的描述信息,其主要目

14、标是提供数据资源的全面指南4。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库的开发人员非常方便地找到他们所关心的数据;元数据是描述数据仓库内数据的结构和建立方法的数据,可将其按用途的不同分为两类:技术元数据(Technical Metadata)、业务元数据(Business Metadata)和内联映射元数据(Inter-Mapping Metadata)。 技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它主要包括:数据仓库结构的描述,包括各个主题的定义,星型模式或雪花型模式的描述定义等;ODS层的企业数据模型的描述,以描述关系表及其关联关系为

15、形式;对数据稽核规则的定义;数据集市的定义描述与装载描述,包括Cube的维度、层次、度量以及相应事实表、概要表的抽取规则。由数据源的定义、ETL的抽取定规则的定义,包括源数据和它们的内容、数据分割、数据提取、清理、转换规则和数据刷新规则;安全认证的数据也作为元数据的一个重要部分进行管理。业务元数据从业务角度描述了数据仓库中的数据,它提供了介于使用者和实际系统之间的语义层,使得不懂计算机技术的业务人员也能够理解数据仓库中的数据。业务元数据主要包括以下信息:使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括:企业概念模型

16、:这是业务元数据所应提供的重要的信息,它表示企业数据模型的高层信息、整个企业的业务概念和相互关系;多维数据模型:这是企业概念模型的重要组成部分,它告诉业务分析人员在数据集市当中有哪些维、维的类别、数据立方体以及数据集市中的聚合规则。这里的数据立方体表示某主题领域业务事实表和维表的多维组织形式。内联映射元数据(Inter-Mapping Metadata)实现技术元数据与业务元数据的层间映射,使得信息系统的概念模型与物理模型相互独立,使得企业的概念、业务模型重组以及物理模型的变化相互透明;内联映射元数据从技术上为业务需求驱动、企业数据驱动的双驱动信息系统建设模型提供了重要保证,使得信息系统的建设

17、具有更高的灵活性与适应性。 基于元模型数据仓库建模的过程如下图所示: 图2 基于元数据的数据仓库建模2.3.6 专题数据挖掘电信企业在长期信息化建设过程中积累了大量的业务运营数据和业务管理数据,一般企业级的数据量已超过了TB级以上;同时市场的激烈竞争和管理过程的复杂性,决定了一个企业为了生存与发展,需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,将数据转化为有用的信息。数据挖掘一般用于在海量的数据集中发现间接的、隐藏的、新颖的规则、规律来辅助决策。数据挖掘技术的优势在于通过对数据集进行有限步骤的采集、整理、分析、推理、比较等分析手段来揭露埋在数据表面下的有用信息。数

18、据挖掘又是对信息的一种高度归纳的技术,将大量的、丰富的数据集整理成可操作性的、能够指导决策的若干条归纳结论或规则。数据挖掘常用的算法包括:关联规则、聚类检测、决策树、神经网络、遗传算法、支持向量机等,在SAS、IM8等数据挖掘工具中支持的算法包括决策树、聚类分析、神经网络、回归分析等。本项目中数据挖掘专题分析支持对电信经营数据分类与预测分析。分类包括客户分类、网元分类等;预测包括客户发展分析与预测、业务量发展分析与预测、客户流失分析与预测、营销管理与销售机会分析与预测、市场竞争分析与预测、大客户分析与预测等。采用回归分析业务量进行预测,如下图所示: 图3 某电信业务量预测分析结果 以2001年

19、7月1日到29日的通话次数历史数据,预测2001年7月30日的通话次数 ,结果为:2001年7月30日的预测通话次数为:31715.84323 ,2001年7月30日的实际通话次数为30926;应用中取得较好的预测准确率。 3、 结语大型企业的数据仓库系统建设是一项复杂的系统工程,通过本项目的实施,用户形成了一套有自己特色的涵盖企业客户、产品、帐务等主题的数据模型,建立了企业级的数据仓库,并进行数据模型和数据仓库的运行验证,在产生报表的速度、质量,数据分析的结论都基本上达到数据仓库应有的效能,为企业的各项经营分析与决策行为提供了科学的依据。参考文献:1栾诚. 数据仓库技术浅析. 山东通信技术,2003,01:32-34.2 Corinne Baragoin, Marty Marini, Andrew Perkins. 2001 123王英林,周洁,张申生. 遗留软件系统的一种重构方法. 上海交通大学学报 2002 9(36)4戴超凡,陈文伟,邓苏,陆昌辉,唐九阳. 数据仓库中元数据技术研究. 计算机工程与应用 2001,14: 85

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁