《企业信息系统应用数据仓库技术研究39718.docx》由会员分享,可在线阅读,更多相关《企业信息系统应用数据仓库技术研究39718.docx(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据仓库技术在企业信息系统建设中的应用谢新建 宋晔 ( 北京理工工大学 计算算机科学系, 北京 11000811)摘要:本文从建建设原则、体体系结构、关关键环节等几几个方面并结结合某电信运运营商的具体体案例说明了了数据仓库技技术在国内电电信业的应用用,其中重点说说明了异种数数据源集成、ODS层的设计、ETL过程的设计、仓库模型设计、元数据管理以及专题数据挖掘等关键环节,对企业数据仓库项目的工程实施有一定的参考价值。关键词: 数数据仓库;EETL;元数数据;遗留系系统中图分类号: TP3111 文献标标识码:A 1、 引言数据仓库技术是是经过了十几几年的研究与与发展,在理理论与工程实实践上都取得
2、得了显著的成成果。国际上上许多重要的的学术会议,如如超大型数据据库国际会议议(VLDBB),数据工工程国际会议议(Dataa Engiineeriing)等,都都出现了大量量专门研究数数据仓库(DData WWarehoousingg)、联机分分析处理(OOn-Linne Anaalyticcal Prrocesssing)、数数据挖掘(DData MMiningg)1的论文文,同时各大数数据库厂商纷纷纷推出相应应产品支持数数据仓库,比如NCRR、SAS、Oraclle、IBM、Inforrmix、Sybasse等都提出出了相应的数数据仓库解决决方案;另一一方面 ,随随着信息技术术的飞速发展展
3、,企业内部部产生了越来来越多的数据据,但这些数数据并没有产产生应有的信信息,为此出出现了“数据据爆炸,知识识贫乏”的窘窘迫局面,有有效地整合与与充分利用现现有的信息资资源成为企业业提高核心竞竞争力的关键键。本文以电电信行业为例例分析了企业业经营分析与与决策支持系系统的建设应应用,重点阐阐述数据仓库库相关技术。2、 数据仓库系统的的设计2.1、系统设设计原则 (1) 通用化性原原则 企业业各地分支机机构在组织构构架、业务划划分与侧重、其其所运行的OOLTP系统统所依赖RDDBMS、电电信数据综合合分析与决策策支持系统所所需要的数据据源的类型与与格式等不尽尽相同,这些些都在企业数数据综合分析析与决
4、策支持持系统通用化化设计的考虑虑范围之内。(2) 可扩展展性原则随着业务内容的的变化,业务务系统的信息息范围会发生生变化,而对对于作为统一一信息服务平平台应设计性性能良好的体体系结构,保保证系统灵活活的功能可扩扩展性。即在在保持系统架架构与原业务务分析逻辑的的前提下,系系统能实现简简洁的分析主主题与功能性性扩充。 (3) 技术开放性性原则为保护用户投资资,通过透明明访问技术,要要保证系统能能够独立于具具体平台工具具,对用户形形成统一的功功能和界面。在在工具和平台台的选择上给给用户提供自自由选择的最最大余地。 (4) 兼容性原则则 企业业在信息化建建设的过程所所积累的信息息资源是企业业最为宝贵的
5、的财富,新建建的经营决策策分析系统应应有效的兼容容原系统,尤尤其兼容原系系统的数据资资源。2.2、系统体体系结构根据上述的设计计原则,并结结合系统设计计目标,提出出电信经营分分析与决策系系统的总体结结构如下: 图1 经经营分析与决决策支持系统统总体结构如上图所示,异异种数据源的的企业应用集集成接口实现现异种数据源源的透明访问问,要支持各各种关系数据据库、平面文文件、XMLL文件等形式式。根据企业业的分析应用用需求,通过过设计与实现现操作数据存存储(ODSS)2层来达达到面向应用用的企业级数数据视图,系系统也支持通通过异种数据据源的企业应应用集成接口口直接实施数数据仓库的EETL过程。在基于元数
6、据的的控制逻辑的的驱动下,系系统实现从业业务数据源和和ODS的数据据抽取、清洗洗、转换与加加载的过程,以以面向主题的的形式来组织织数据仓库的的数据;数据据集市是面向向部门级分析析而组织分析析模型,一般般组织成Cuube立方体体的形式向上上支持在线多多维分析。同同时为了对特特定问题(如如欠费离网)进进行深入分析析,系统要建建立相应的分分析挖掘模型型,一般采用用星型与挖掘掘宽表的形式式进行处理。元数据是关于数数据的数据,即即反映系统结结构性本质信信息的数据描描述。一般认认为包括技术术元数据与业业务元数据,为为了实现系统统应用层对物物理层的透明明访问系统引引入了元数据据内联映射的的概念,对于于元数据
7、的存存储系统采用用两层接口封封装实现元数数据存储的规规范性与灵活活性。从数据集市、挖挖掘模型以及及从ODS获取的的数据集与以以元数据存储储的报表模板板、分析模板板、门户Poortal模模板、XMLL Scheema等结合合来生成满足足分析与决策策需要的各种种展现内容,包包括预定义报报表、即席查查询(Ad Hoc)、OLAPP分析、业务务挖掘分析报报告、企业经经营指标监控控Portaal等,满足足企业经营分分析与决策支支持的需要。系统实现了基于于元数据的全全程管理,涉涉及数据获取取层、数据整整合层以及数数据展现层的的全过程,支支持分析模型型的维护以及及数据源的结结构性变化,通通过经营分析析与决策
8、支持持监控门户提提供包括展现现报表定制、元元数据维护、门门户定制、统统一安全管理理等管理服务务。2.3、系统关关键环节 2.3.11 异种数据据源集成 企业在进进行经营分析析与决策支持持系统建设时时必须将遗留留系统(Leegacy Systeem)3进行高高效全面地集集成,由于遗遗留系统是在在企业发展的的不同时期建建设的,往往往缺乏全局的的规划,所以以常表现为不不同的操作系系统平台、不不同的数据库库平台、不同同的网络通信信机制等等,形形成了所谓的的“信息孤岛”;系统中采采用异种数据据源的企业应应用集成接口口来实现对异异种数据源的的透明访问,包包括数据源元元数据访问以以及业务操作作数据访问。数数
9、据源分为在在线数据源和和离线数据源源,在线数据据源是指允许许在线抽取的的业务数据源源,如营业数数据,离线数数据源是指不不允许直接在在线抽取的数数据源,如计计费样单数据据,采用以脱脱机平面文件件数据的格式式以FTP方式集集成进本系统统。对数据源源实现元数据据级的管理,数数据源的连接接类型(ODDBC、OLEDBB、JDBC、Nativve)、连接接字符串以及及该数据源的的数据结构信信息都以技术术元数据的形形式存储于元元数据库中,通通过控制台对对其进行业务务语义定义,使使用户对整个个企业的信息息系统有了全全面的掌握。 2.3.22 ODS层层的设计 操作数据据存储ODSS(Operaation D
10、ata Storaage)是一一个集成了来来自不同数据据库数据的环环境。其目的的是为终端用用户提供一致致的企业数据据集成视图。它它可以帮助用用户轻松应对对跨多个商业业功能的操作作挑战。它是是面向主题的的、集成的、近近实时的数据据存储。设计计ODS层的目目的在于:改改善了对关键键操作数据库库的存取;用用户能获得对对于收益、客客户等主题的的企业级的完完整视图,有有利于更好地地通观全局;近实时的数数据存储提供供了查询产品品与服务的能能力;以更高高的性能生成成操作报告。设设计ODS的核心心是实现焦点点主题全局试试图应用,如如企业的客户户管理系统,可可以CRM的的理念建立以以客户为中心心的ODS客户主主
11、题视图,向向上层提供高高效的服务。而而对于话费结结算则采取了了从综合结算算系统中直接接抽取到数据据仓库的方式式,抽取周期期为结算周期期,能完全满满足决策分析析的时间窗要要求。 2.3.33 ETL过程程的设计 数据抽取取、转换和加加载,是数据据仓库实现过过程中,进行行数据由数据据源系统向数数据仓库加载载的主要方法法,对于整个个数据处理过过程,实现如如下: 数据抽取:从数数据源系统抽抽取数据仓库库系统需要的的数据。数据据抽取采用统统一的接口,可可以从数据库库抽取数据,也也可以从文件件抽取,对于于不同数据平平台、不同的的源数据形式式、不同性能能要求的业务务系统以及不不同数据量的的源数据,可可能采用
12、的接接口方式不同同。为保证抽抽取效率,同同时减少对生生产运营系统统的影响,对对于大数据量量的抽取,采采取“数据分割、缩缩短抽取周期期”的原则,对对于直接的数数据库抽取,采采取协商接口口表的方式,保保障生产系统统数据库的安安全。为了满满足经营分析析系统进行分分析、挖掘的的需要,同时时保证不能影影响业务系统统的性能,设设计抽取策略略、抽取方式式、抽取时机机、抽取周期期非常关键。数据转换:数据据转换是指对对抽取的源数数据根据数据据仓库系统模模型的要求,进进行数据的转转换、清洗、拆拆分、汇总等等处理,保证证来自不同系系统、不同格格式的数据和和信息模型的的一致性和完完整性,并按按要求装入数数据仓库。数据
13、加载:数据据加载就是将将转换后的数数据加载到数数据仓库系统统中。数据加加载采用数据据加载工具,也也可以采用AAPI编程进进行数据加载载。数据加载载策略包括加加载周期和数数据追加策略略。对于电信信企业级应用用我们采用对对ETL工具DDataSttage进行行功能封装,向向上提供监控控与调度接口口。数据加载周期要要综合考虑经经营分析需求求和系统加载载的代价,对对不同业务系系统的数据采采用不同的加加载周期,但但必须保持同同一时间业务务数据的完整整性和一致性性。 2.3.44 仓库模型设设计 由由于经营分析析需求的不断断变化,数据据仓库中数据据的存储必须须采用主题分分域的方式和和尽可能小的的业务单元来
14、来进行数据的的组织和存储储,这样才能能满足数据仓仓库的灵活性性,适应需求求的变化;同同时任何一个个信息系统都都有整体性、结结构性、层次次性、相对性性、可变性;将数据仓库库的目标逻辑辑结构的设计计体现系统的的这些特征,是是对目标系统统正确反映的的客观要求。 经经过详细的业业务需求分析析,某电信运运营商的业务务可以按照不不同的主题域域分为八类:客户、帐务务、资源、服服务、客服、营营销、服务使使用、结算。其其中,客户主主题包含了与与客户相关的的基本信息,如如客户的自然然属性(姓名名、年龄、职职业等)、客客户的分类信信息(现有客客户、潜在客客户、大客户户等)、客户户的重要属性性信息(信用用度、忠诚度度
15、、消费层次次等)。帐务务主题中包含含了与客户相相关的费用信信息,如明细细账单、综合合帐单、帐本本、帐户、付付费记录、销销帐流水等信信息。资源主主题中包含了了网络资源和和服务资源的的信息及占用用情况。服务务主题中包含含了产品、套套餐、资费与与优惠规则等等的信息。客客服主题中包包含了与客户户服务相关的的部门信息、流流程信息、分分类信息等。营营销主题中包包含了销售机机会、营销渠渠道、促销活活动等相关信信息。服务使用主题中中描述客户购购买和使用电电信服务产品品的信息,主主要包含了用用户、服务使使用记录、清清单等。结算算主题中包含含了结算清单单、结算明细细账单、合作作服务方等信信息。对于主主题的建模采采
16、用星型结构构,以事实表表或概要表加加相关维表来来构成。 2.3.55 元数据管理理元数据(Mettadataa)是关于数数据、操纵数数据的进程和和应用程序的的结构和意义义的描述信息息,其主要目目标是提供数数据资源的全全面指南44。在数据据仓库系统中中,元数据可可以帮助数据据仓库管理员员和数据仓库库的开发人员员非常方便地地找到他们所所关心的数据据;元数据是是描述数据仓仓库内数据的的结构和建立立方法的数据据,可将其按按用途的不同同分为两类:技术元数据据(Techhnicall Metaadata)、业业务元数据(BBusineess Meetadatta)和内联联映射元数据据(Inteer-Map
17、pping Metaddata)。 技术元数数据是存储关关于数据仓库库系统技术细细节的数据,是是用于开发和和管理数据仓仓库使用的数数据,它主要要包括:数据据仓库结构的的描述,包括括各个主题的的定义,星型型模式或雪花花型模式的描描述定义等;ODS层的的企业数据模模型的描述,以以描述关系表表及其关联关关系为形式;对数据稽核核规则的定义义;数据集市的的定义描述与与装载描述,包包括Cubee的维度、层层次、度量以以及相应事实实表、概要表表的抽取规则则。由数据源源的定义、EETL的抽取取定规则的定定义,包括源源数据和它们们的内容、数数据分割、数数据提取、清清理、转换规规则和数据刷刷新规则;安全认证的的数
18、据也作为为元数据的一一个重要部分分进行管理。业务元数据从业业务角度描述述了数据仓库库中的数据,它它提供了介于于使用者和实实际系统之间间的语义层,使使得不懂计算算机技术的业业务人员也能能够理解数据据仓库中的数数据。业务元元数据主要包包括以下信息息:使用者的的业务术语所所表达的数据据模型、对象象名和属性名名;访问数据据的原则和数数据的来源;系统所提供供的分析方法法以及公式和和报表的信息息;具体包括括:企业概念念模型:这是是业务元数据据所应提供的的重要的信息息,它表示企企业数据模型型的高层信息息、整个企业业的业务概念念和相互关系系;多维数据模模型:这是企企业概念模型型的重要组成成部分,它告告诉业务分
19、析析人员在数据据集市当中有有哪些维、维维的类别、数数据立方体以以及数据集市市中的聚合规规则。这里的的数据立方体体表示某主题题领域业务事事实表和维表表的多维组织织形式。内联映射元数据据(Inteer-Mappping Metaddata)实实现技术元数数据与业务元元数据的层间间映射,使得得信息系统的的概念模型与与物理模型相相互独立,使使得企业的概概念、业务模模型重组以及及物理模型的的变化相互透透明;内联映映射元数据从从技术上为业业务需求驱动动、企业数据据驱动的双驱驱动信息系统统建设模型提提供了重要保保证,使得信息系系统的建设具具有更高的灵灵活性与适应应性。 基基于元模型数数据仓库建模模的过程如下
20、下图所示: 图22 基于元数数据的数据仓仓库建模2.3.6 专专题数据挖掘掘电信企业在长期期信息化建设设过程中积累累了大量的业业务运营数据据和业务管理理数据,一般般企业级的数数据量已超过过了TB级以上;同时市场的的激烈竞争和和管理过程的的复杂性,决决定了一个企企业为了生存存与发展,需需要对客户关关系、市场营营销、产品工工程、投资分分析等方面的的历史数据进进行提取与分分析,将数据据转化为有用用的信息。数数据挖掘一般般用于在海量量的数据集中中发现间接的的、隐藏的、新新颖的规则、规规律来辅助决决策。数据挖挖掘技术的优优势在于通过过对数据集进进行有限步骤骤的采集、整整理、分析、推推理、比较等等分析手段
21、来来揭露埋在数数据表面下的的有用信息。数数据挖掘又是是对信息的一一种高度归纳纳的技术,将将大量的、丰丰富的数据集集整理成可操操作性的、能能够指导决策策的若干条归归纳结论或规规则。数据挖挖掘常用的算算法包括:关关联规则、聚聚类检测、决决策树、神经经网络、遗传传算法、支持持向量机等,在在SAS、IM8等数据据挖掘工具中中支持的算法法包括决策树树、聚类分析析、神经网络络、回归分析析等。本项目中数据挖挖掘专题分析析支持对电信信经营数据分分类与预测分分析。分类包包括客户分类类、网元分类类等;预测包包括客户发展展分析与预测测、业务量发发展分析与预预测、客户流流失分析与预预测、营销管管理与销售机机会分析与预
22、预测、市场竞竞争分析与预预测、大客户户分析与预测测等。采用回归分析业业务量进行预预测,如下图图所示: 图33 某电信业业务量预测分分析结果 以22001年7月1日到229日的通话话次数历史数数据,预测22001年77月30日的的通话次数 ,结果为:2001年77月30日的的预测通话次次数为:311715.884323 ,2001年7月月30日的实际际通话次数为为309266;应用中取取得较好的预预测准确率。 3、 结语大型企业的数据据仓库系统建建设是一项复复杂的系统工工程,通过本本项目的实施施,用户形成成了一套有自自己特色的涵涵盖企业客户户、产品、帐帐务等主题的的数据模型,建建立了企业级级的数
23、据仓库库,并进行数数据模型和数数据仓库的运运行验证,在在产生报表的的速度、质量量,数据分析析的结论都基基本上达到数数据仓库应有有的效能,为为企业的各项项经营分析与与决策行为提提供了科学的的依据。参考文献:1栾诚. 数据仓库技技术浅析. 山东通信技技术,20003,01:32-34.2 Corrinne Baraggoin, Martyy Mariini, AAndreww Perkkins. http:/m/deveeloperrWorkss/cn/ddmdd/ssupporrt/reddbookss/absttract/sg2466513.sshtml.2001 1223王英林,周周洁,张申生生. 遗留软件件系统的一种种重构方法. 上海交通通大学学报 2002 9(36)4戴超凡,陈陈文伟,邓苏苏,陆昌辉,唐唐九阳. 数据仓库库中元数据技技术研究. 计算机工程程与应用 22001,114: 855