《基于数据挖掘方法寿险业务管理KPI指标分析.pdf》由会员分享,可在线阅读,更多相关《基于数据挖掘方法寿险业务管理KPI指标分析.pdf(46页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、武汉科技大学硕士学位论文基于数据挖掘方法寿险业务管理KPI指标分析姓名:黄慧超申请学位级别:硕士专业:计算机应用技术指导教师:张晓龙20090420武汉科技大学硕士学位论文第1 页摘要为了提高人寿保险行业工作效率和服务水平,建立高效的管理机制,适应业务的开展和激烈的市场竞争,商业智能开始进入寿险行业,K P I 指标分析系统应运而生。本文基于数据仓库、联机分析处理及数据挖掘等技术理论,研究了K P I 指标分析系统构建与实现。本文首先介绍了课题研究背景,指出客户工作中面对的有关数据的难题,描述了K P I指标分析系统的优越性;简要概述了数据仓库、联机分析处理及数据挖掘技术特点,深刻分析了三者之
2、间内在的联系性:给出了数据仓库的设计步骤,分析了数据仓库的体系结构,讨论了联机分析处理及多维分析中的上钻和下钻等操作,描述了数据挖掘过程,给出常用数据挖掘算法和比较分析。本文描述了K P I 数据指标决策系统的建设背景和K P I 指标形成。参照C R I S P D M 重点讨论了数据抽取、转换、加载技术整个E T L 的实现过程;其中以K P I 中“保费契撤率一指标为例,给出了数据仓库模型设计中相应事实表和维表的创建和相应S Q L 存储过程。本文描述了面向主题的分析模型在K P I 指标分析系统的展现;提出了基于数据仓库,综合应用联机分析处理和数据挖掘技术的K P I 指标分析系统的总
3、体设计方案;本文理论上提出多维复杂查询分析优化思想,为K P I 指标分析系统在人寿保险领域的应用做出了有价值的探索。关键词:数据挖掘;数据仓库;联机分析处理;关键业绩指标;商业智能第1 I 页武汉科技大学硕士学位论文A b s t r a c tF o ral i f ei n s u r a n c ei n d u s t r yt oi m p r o v ee f f i c i e n c ya n ds e r v i c el e v e l,i tn e e d st os e tu pe f f i c i e n tm a n a g e m e n tm e c h a
4、 n i s m,a d a p t e dt oc a r r yo u to p e r a t i o n sa n dt h ef i e r c em a r k e tc o m p e t i t i o n B u s i n e s si n t e l l i g e n c eb e g i n st oe n t e rt h el i f ei n s u r a n c ei n d u s t r y,K P I sa n a l y s i si su s e d B a s e do nt h ed a t aw a r e h o u s e O n-L i
5、 n eA n a l y t i c a lP r o c e s sa n dD a t aM i n i n g,t h i st h e s i sd e s c r i b e st h eK P IA n a l y s i sS y s t e mC o n s t r u c t i o na n di m p l e m e n t a t i o n T h et h e s i si n t r o d u c e s t h er e s e a r c hb a c k g r o u n d,d e s c r i b e st h et a r g e tK P
6、Ia n a l y s i so ft h es u p e r i o r i t yo ft h es y s t e m,t h eo v e r v i e wo fd a t aw a r e h o u s i n g,o n l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t am i n i n gf e a t u r e s,a n dad e e pa n a l y s i so ft h et h r e ec o n t a c to ft h ei n t r i n s i cn a t u r e
7、I ta l s og i v e st h es t e p so fd a t aw a r e h o u s ed e s i g n,a n a l y s i so ft h ed a t aw a r e h o u s ea r c h i t e c t u r e,d i s c u s s e st h em u l t i d i m e n s i o n a lo n l i n ea n a l y t i c a lp r o c e s s i n ga n da n a l y s i so fd r i l l i n ga n dd r i l l i
8、n go p e r a t i o n s,d e s c r i b e st h ep r o c e s so fd a t am i n i n ga n dc o m m o n l yu s e dd a t am i l l i n ga l g o r i t h ma n dc o m p a r a t i v ea n a l y s i s T h eK P I ss y s t e mi nt h et h e s i sd e s c r i b e st h ed a t ac o n s t r u c t i o no ft h ec o n t e x t
9、o fd e c i s i o n m a k i n gs y s t e ma n dt h ef o r m a t i o no fK P It a r g e t C R I S P-D Mr e f e r e n c ef o c u s e so nd a t ae x t r a c t i o n,t r a n s f o r m a t i o n,l o a d i n gt h et e c h n i c a li m p l e m e n t a t i o no ft h ee n t i r eE T Lp r o c e s s,T a k i n g
10、”L e a s ep r e m i u m sw i t h d r a w a lr a t e 勰a ne x a m p l et a r g e t,t h i st h e s i sd e s c r i b e st h ed e s i g no fd a t aw a r e h o u s em o d e l,a n di n t r o d u c e st h ec r e a t i o na n dc o r r e s p o n d i n gS Q Ls t o r e dp m c e d u r ef o rf a c ta n dd i m e n
11、 s i o nt a b l e W ed e s c r i b et h ea n a l y s i so fs u b j e c t-o r i e n t e dm o d e lo ft a r g e tK P I sA n a l y s i sS y s t e ma tt h es h o w B a s e do nd a t aw a r e h o u s e,o n l i n ea n a l y t i c a lp r o c e s s i n gi n t e g r a t e sa p p l i c a t i o na n dd a t am
12、i n i n gt e c h n o l o g i e st a r g e tK P I sa n a l y s i ss y s t e md e s i g np r o g r a m I nt h e o r y,w ep u tf o r w a r dm u l t i d i m e n s i o n a la n a l y s i so fc o m p l e xq u e r yt h o u g h tO p t i m i z ef o rt a r g e tK P I sa n a l y s i ss y s t e ma tt h ef i e l
13、 do fl i f ei n s u r a n c ea p p l i c a t i o nm a d et oe x p l o r ep o t e n t i a l K e yw o r d s:D a t aM i n i n g;D a t aW a r e h o u s e;O nL i n eA n a l y t i c a lP r o c e s s;K e yP e r f o r m a n c eI n d i c a t i o n;B u s i n e s sI n t e l l i g e n c e武汉科技大学研究生学位论文创新性声明本人郑重声
14、明:所呈交的学位论文是本人在导师指导下,独立进行研究所取得的成果。除了文中已经注明引用的内容或属合作研究共同完成的工作外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均己在文中以明确方式标明。申请学位论文与资料若有不实之处,本人承担一切相关责任。论文作者签名:黄趣日期:兰1 7:!:?7研究生学位论文版权使用授权声明本论文的研究成果归武汉科技大学所有,其研究内容不得以其它单位的名义发表。本人完全了解武汉科技大学有关保留、使用学位论文的规定,同意学校保留并向有关部门(按照武汉科技大学关于研究生学位论文收录工作的规定执行)送交论文的复印件和电子版
15、本,允许论文被查阅和借阅,同意学校将本论文的全部或部分内容编入学校认可的国家相关数据库进行检索和对外服务。论文作者签名:指导教师签名:日期:煎茎塑越缝垄圣:望:翌武汉科技大学硕士学位论文第l 页1 1 本课题的研究背景和意义第一章绪论寿险是保险行业的一个重要分支,具有巨大的市场发展空间,因此,随着寿险市场的开放、外资公司的介入,竞争逐步升级,群雄逐鹿已成定局如何保持自身的核心竞争力,使自己始终立于不败之地,是每个企业必须面对的问题。信息技术的应用无疑是提高企业竞争力的有效手段之一寿险信息系统经过了多年的发展,已逐步成熟完善,并积累了相当数量的数据资源,为数据挖掘提供了坚实的基础,而通过数据挖掘
16、发现知识,并用于科学决策越来越普遍受到寿险公司的重视。本文涉及的是国内一家知名人寿保险公司。其各部门主管在业务发展中面对日益增多的数据管理上显得效率不足:大量积累的业务数据本应是通过分析为公司提供决策依据,但由于缺乏有效的分析手段,主管们很难从这些数据中获得价值,也无法从中提取对部门管理更行之有效的关键业绩指标,以考核业务部门的管理和提高业务部门的管理水平。数据仓库和数据挖掘在解决企业面临诸如:风险、增值和绩效等问题时提供了很好的解决方案。例如:超市中进销存系统的应用,银行业中的客户数据挖掘,项目实施风险中的应用和电信增值服务中的应用等等。而本文主要描述数据仓库和数据挖掘在人寿保险领域中的研究
17、和应用。每当要对寿险中大量历史的业务数据或是某一特定时间间隔的数据进行处理以获取有用的信息时,这时就必须实施数据整理,利用数据仓库技术,建立起全新的数据挖掘、知识发现体系,获得有价值的和较直观的信息用于分析决策参考和辅助管理。关键业绩指标(K P I),是通过对部门内部某流程绩效衡量的一种目标式量化管理指标,是把企业的战略目标分解为可运作的远景目标的工具,是企业绩效管理的基础。本文针对寿险行业业务管理的K P I 指标分析进行了数据挖掘,其挖掘过程与其他行业应用相似之处在于:都是先通过需求分析对客户原有数据进行质量控制,以此为基础进行数据仓库设计,再采用数据分析方法来提取对客户有价值的信息。从
18、寿险业务需求角度出发,通过对寿险公司各部门数据库数据的研究,形成了基于数据仓库的寿险多元行销部门整体架构,得到了系统主要的主题分析,完成了基于主题分析的数据仓库建模;并将判定树归纳、多维O L A P 概念分层应用到K P I 指标分析挖掘过程中;利用“可视化查询器”将客户所需的K P I指标分析以3 一D 直方图、报表、曲线图和仪表盘图等多种形式呈现给客户,最终完成对K 1 I决策分析的挖掘工作。为客户信息化业务管理提供了很好的决策支持。1 2 数据库与数据仓库数据库与数据仓库都是用来储存数据的,那么数据存储的最终目的是什么呢?首先,它一定是数据。这类信息在海量数据库中都是支离破碎的,对于企
19、业一般人员来说并不是一个很有意义的东西。那么,我们存储数据的最终目的应该是把数据转化为信息,信息对企业执行者、运营者包括商务人员和市场人员有很重要的作用。进而企业运营者把他们的一些业务经验、行业背景知识与这些信息结合起来,就可以变成知识。所以,对一个企业第2 页武汉科技大学硕士学位论文来说,这就是把一些死的数据转化为信息和知识,即知识发现(K D D,k n o w l e d g ed i s c o v e r yi nd a t a b a s e s)。变成知识后,我们才能够为企业下一步决策做出引导,才能对企业真正带来价值。那么数据库和数据仓库都是用来存放数据的,它们之间究竟有什么不同
20、呢?首先从定义的角度出发,来看看它们之间的区别。数据库是指长期储存在计算机内的、有组织的、可共享的数据集合【I】。在这个集合中可以按照信息的逻辑结构对其进行组织与存取。数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合【2】。数据仓库,是在已有数据库的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它决不是所谓的“大型数据库。数据仓库与传统数据库区别在于:面向主题的:传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。与时间相关:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数
21、据都要标明时间属性。不可修改:数据仓库中的数据并不是最新的,而是来源于其它数据源。数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据。1 3 数据仓库1 3 1 商业智能与数据仓库商业智能(B I,B u s i n e s sI n t e l l i g e n c e)通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。B I 目的就是怎么把数据变成目标和知识。因此,从技术角度上来讲,B I 不是什么新的技术,它只是数据仓库、O L A P 和数据挖掘等技术的综合应用。近些年来,整个商业智能体系结构已经有了相当的发展,从简单的商业报表输出和主管信
22、息系统(E I S,E x e c u t i v eI n f o r m a t i o nS y s t e m),到多维分析统计和数据挖掘,再到可定制的分析应用技术的引进,所有这些技术都促使了B I 环境的构建日趋成熟。商业智能决策支持系统【3】【4】就是最好的例证,它以数据仓库技术为基础,对大量的市场营销数据进行处理,再按照一定的业务逻辑进行重新组织和分析,通过灵活的前端展现。实时商业智能【5 1(R T B I,R e a l T i m eB u s i n e s sI n t e l l i g e n c e)及其在运营风险管理上的应用【6】就是商业智能系统发展的最新体现。
23、数据仓库是分布式数据源的存储体系结构。其特点是主要处理趋于静态的数据,是一个典型的主体数据库。它使用深入企业数据库当中跟踪操作数据,以得到业务趋势,最终完成预测和计划。数据集市是一种便捷的数据源子集的存储方式,通常来自数据仓库。它是从数据仓库抽耿的一个特定的主题。数据仓库在设计中的两个思想武汉科技大学硕士学位论文第3 页第一,它必须有一个合适的粒度或细节级别以满足所有的数据集市,即:它必须包括具有最少公共点的细节数据,以便提供聚集的、汇总的集市,以及提供用于事务级别的探索和挖掘的仓库;第二,该设计必须适应多维集市、统计、挖掘以及探索型仓库,还必须适应分析型应用,以支持任何新的尖端技术。它必须支
24、持的模式包括:星型模式、平面文件、规范化数据的统计型子集以及B I 将来需要的模式。1 3 2 数据仓库正在成为主流最初,有四个主要的因素促使越来越多的公司使用数据仓库:激烈的竞争环境、政府缩小管制、重构内部流程的需要和急需为用户定制的市场销售策略。电信业、金融业和零售业是最早采用数据仓库的行业。零售业采用数据仓库是因为激烈的市场竞争。即将或正在采用数据仓库的行业是金融服务、医疗保健、保险行业和制造业。今天,电信和银行业一如既往地在数据仓库费用上保持着大量的投入,并且分别占到了两个行业预算的1 5 以上。从事这些行业的公司收集了大量的交易数据。由此采用数据仓库有利于将这些数据转化成为公司决策的
25、战略信息。现在市场上数据仓库的主流产品有:O r a c l eH y p e r i o nI n t e l l i g e n c e,S P S S&C l e m e n t i n e,S Q LS e r v e r2 0 0 5 2 0 0 8B u s i n e s sI n t e l l i g e n c eD e v e l o p m e n tS t u d i o,S A P(S y s t e m sA p p l i c a t i o n,P r o d u c t si nD A T Ap r o c e s s i n g)和M i c r os t
26、 r a t e g y 等。1 4 数据仓库模式数据仓库和O L A P 基于多维数据模型,该模型将数据看作数据立方体形式,即允许以多维角度对数据建模和观察,它由维和事实定义。多维数据模型围绕中心主题组织,该主题用事实表表示。事实表包括事实的名称或度量,以及每个相关维表关键字。数据仓库多维数据模型常用的三种模式:星型模式(s t a rs c h e m a):包括一个大的包含大批数据和不含冗余的中心表(事实表)和一组小的附属表(维表)。雪花模式(s n o w f l a k es c h e m a):是星型模式的变种,将某些维表进一步规范化,因而将数据进一步细分到相应的表中。事实星座(
27、f a c tc o n s t e l l a t i o n):如图1 1 所示,该模式是多个事实表共享维表,即,事实表s a l e sf a c tt a b l e 和s h i p p i n gf a c tt a b l e 共享维表:t i m e、i t e m 和l o c a t i o n。第4 页武汉科技大学硕士学位论文1 5 数据仓库与数据挖掘图1 1 数据仓库的事实星座模式数据仓库与数据挖掘区别:数据仓库是一种存储技术,它适应于不同用户对不同决策需要提供所需的数据和信息,而数据挖掘研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。数据仓库与数据挖掘的联系
28、是:数据挖掘为数据仓库提供了更好的决策支持。企业领导的决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好地满足高层战略决策的要求【引。数据挖掘对数据仓库中的数据进行模式抽取和发现知识,从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现【9】,为知识管理提供了内容,在知识管理中起到了重要作用。数据挖掘可作为对数据的第一遍筛选,从商务的角度决定哪些原始数据是最重要的,哪些应该被加载到数据仓库中去E l o】。成功的数据挖掘前提条件就是通过访问正确、完整和集成的数据,才能进行深层次的研究与分析,以得到有益的信息,而这一条件也正是数据仓库能够满足的,即是数据挖掘所需的高
29、效率的数据。数据仓库不仅是集成数据的一种方式,而且数据仓库的联机分析功能为数据挖掘提供了一个很好的操作平台。如图1 2 所示,数据仓库依据逻辑层次将数据划分到对应的数据集市,为数据挖掘提供了高质量的数据;同时,数据挖掘为数据仓库的构建提供了很好的支持。图1 2 数据仓库和数据挖掘的关系武汉科技大学硕士学位论文第5 页1 6 基于数据仓库的K P I 指标分析系统体系结构数据仓库体系结构(D a t aW a r e h o u s eA r c h i t e c t u r e,D W A)是一种方法,使用该方法表示企业内所有的数据结构、处理以及对终端客户处理的呈现【1 1 1。同时,它集成
30、了数据仓库、O L A P 和数据挖掘等信息处理技术,并由业务系统、B I 企业仓库(数据集市)和前端展现层组成。各个部分的作用如下:业务系统:数据仓库的数据都是来自各个部门的业务系统,它主要由操作型事务处理系统和相关的数据组成。不同部门所处理的事务是不同的,相应业务系统所面向的逻辑主题也是不同的。松散的数据没有集成起来,被分散在不同的系统环境中。这些数据是分析系统的主要数据来源,为K P I 指标分析提供了丰富的、可靠的和历史性的数据,是建立数据仓库的物质基础。企业仓库(e n t e r p r i s ew a r e h o u s e):收集了整个企业部门的主题信息,因此,它是企业范
31、围的,提供企业范围内的数据集成。企业仓库在整个分析系统中处于核心地位,是一个中央存储库。它对业务系统数据库中的事务级数据进行集成、转换和装载,将数据重新组合成面向分析的或各个主题的全局数据视图,并为数据分析和挖掘提供了高效的数据。前端展现层:客户最终通过访问前端展现层来得到所需的K P I 指标分析数据,这一层也是终端客户用来对数据仓库中的数据提取和分析的工具。结果展现以文字、报表、曲线和各种图形的方式,简便、快捷地展现出来。类似B l 体系结构是指通过识别和理解数据在系统中的流动过程和数据在企业的应用:过程来提供系统应用的主框架【1 2 1。基于数据仓库的K P l 分析系统的体系结构如图1
32、 3 所示:图1 3 基于数据仓库的K P l 分析系统的体系结构上图表明,当有更新的数据进入业务系统时,E T L 会采用相应的增加载策略做好数据准备。当再进行查询时,例如最新的K P I s 指标状况,能够反映实时数据变化,则把准备好的数据导入到企业仓库中,即以最快速度把它导入到多维数据集中,最后通过前端展现第6 页武汉科技大学硕士学位论文返回给客户。1 7 本文的结构安排本文分为六章,各章内容组织如下:第一章简要地介绍了本文研究背景和意义、描述了数据仓库概念。给出了基于数据仓库的K P l 分析系统的体系结构,列举了本文主要工作及结构安排。第二章介绍了O L A P 概念、作用、操作、展
33、现和数据挖掘与O L A P 的关系。第三章介绍了数据挖掘概念、语言和在商业中的应用;以决策树算法和神经网络算法为例,讲述了数据挖掘的常用技术。利用C l e m e n t i n e 和S Q L 0 5 B I 对算法进行了比较分析。给出了标准商业数据挖掘流程。第四章基于对寿险商业数据理解,分别对商业E T L 中数据清洗准备、数据转换和数据加载进行详细的阐述。仓库逻辑模型设计中,重点对事实和维度的一致性作了必要的介绍。简要的描述了数据仓库构建所需软、硬件搭建环境,基本上实现了基于K P I 指标系统数据仓库从理论到实现的构建。第五章对K P I 指标数据分析和存储过程创建作了简要介绍,
34、利用前端展现工具K P I 指标预警机制等多种形式对结果进行展现。在O L A P 多维查询分析基础上结合数据挖掘信息熵理论,从理论上提出了优化多维复杂查询分析的思想理论。并且对B I 前端展现领域做出进一步研究。第六章总结了本文所作的研究工作和对将来的工作内容做出了展望。武汉科技大学硕士学位论文第7 页第二章O L A P 技术分析O L A P 是一些系统的现行称谓,这些系统以前称为决策支持系统(D e c i s i o nS u p p o r tS y s t e m,D S S)或者是多维数据库。与关系数据库包含了许多表类似,O L A P 数据库包含了许多立方体。立方体包含一组定
35、义明确的维和度量。每个维包含一个或者多个层次。例如:超市中典型的S a l e s 立方体包含多个维,如C u s t o m e r、P r o d u c t、T i m e 和S t o r e。C u s t o m e r 维包含地理层次:C o u n t r y-)S t a t e-)C i t y。该立方体也包含多个度量,如U n i tS a l e s、S t o r eS a l e s、P r o f i t 和C o s t。2 1O L A P 与O L T P 的区别联机分析处理(0 U 屺O n-L i n e A n a l y t i c a lP r o
36、 c e s s i n g)概念最早是由关系数据库之父E E C o d d 于1 9 9 3 年首次提出的。当客户需要在原有数据仓库中进行复杂计算和操作的多维分析(多维分析是一种分析数据的方法,它表明了数据之间许多不同的关系,而每一个关系就代表着一个维度)时,传统的分析工具:报表编辑器、电子数据表和查询产品等,都存在或多或少的不足,无法满足客户的需求。这时能够解决的方案即为O L A P,它是基于数据仓库中创建的O L A P 多维数据集。例如:基于M i c r o s o f tA n a l y s i sS e r v i c e s 的O L A P分析系统【1 3】。联机事务处
37、理(O L T P,O n-L i n eT r a n s a c t i o nP r o c e s s i n g)是指利用计算机网络,将分布于不同地理位置的业务处理计算机设备或网络与业务管理中心连接,以便于在任何一个网络节点上都可以进行统一、实时的业务处理活动或客户服务。O L T P 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理。O L T P 支持数据的快速插入和修改,提供单个记录的查询和支持数千个并发用户,例如银行前台事务:存款、取款和注销账户等。O L A P 是数据仓库系统的主要应用,支持复杂的分析操作,注重决策支持,并且提供直观易懂的查询结果。下面列出了O
38、 L A P 与O L T P 之间的主要区别:O L T P 是面向顾客的,用于技术专业人员的事务和查询处理;O L A P 是面向市场的,用于知识工人(包括经理、主管和分析人员)的数据分析。O L T P 系统管理当前数据;O L A P 系统管理大量历史数据,提供汇总和聚集机制,并在不同的粒度级别上存储和管理信息。令O L T P 系统采用实体联系(E R)模型和面向应用的数据库设计;O L A P 系统采用星型或雪花模型和面向主题的数据库设计。令O L T P 系统主要关注一个企业或部门内部的当前数据,而不涉及历史数据或不同组织的数据;而O L A P 系统常常跨越数据库模式处理来自不
39、同组织的信息,由多个数据存储集成的信息。第8 页武汉嗣杖大学硕士学位论文2 2 0 L A P 立方体的作用因为O L A P 中文定义描述为联机分析处理所以它在实际应用中一定会用到多维数据库。为了支持有效的多维数据分析。1 9 9 6 年,G r a y 等首次提出了数据立方体(d a t ac u b e)1 4 l 的概念,基于数据立方体的相关知识一直都是数据仓库和O L A P 领域的热门研究方向。多维数据库中通常都有立方体的构建其目的就是为了支持决策查询。典型的立方体包含一组定义明确的维,每个维包含许多成员,维的成员又是通过层次的方式来组织的。例如:在P r o d u c t 维中
40、的层次是A l ll h o d u c t s-)C a t e g o r y-)S u bC a t e g o r y-)P r o d u c tN a m c。可以在层次的不同级别上查询聚集的值。O L A P 作用是基于维层次来聚集度量并且将以特定数据结构来存储这些预处理的聚集等信息。通过这些预处理可以查询聚集的数据信息井实时在线返回决策支持查询的结果。相反,传统的方式是需要在批处理和脱机模式下才能完成。关系数据库中的表一定都是二维的,而在O L A P 多维数据库中却是多维的。例如:二月份我在广州卖掉了价值十万美元的牛奶,如图21 所示,“二月份”为时6 J 维度(月份);卖的
41、产品是什么,就是“牛奶”所属的产品维度;“广州”为地域维度:“十万美元”就是图中用黄颜色标注的小单元是度量值。图2,1 0 L A P 是多维的:时问维、产品雏和地域维立方体包含一组度量,度量来自事实表,在该表中存储了每个事务的详细信息。这些度量是基于维的层次来进行诸如聚集的预处理。事实表用于存储每个单独事务的度量值。立方体可以包含多个事实表。例如:通过一个S a l e s 事实表和一个I n v e n t o r y 事实表,立方体既可以存储关于销售额的信息,也可以存储关于存货的信息。这时事实表就是度量组,同时立方体可以包含多个度量组。一个度量是用于衡量业务成效的数据。是用于确定业务操作
42、成功的量化结果,或关键的性能指标。通常有三种类型的度量:标准度量:是直接从数据源中的一个有效数据源列提取数据。汁算度量:在数掘源列不直接生效时,为度量衍生出了新的数值。类别计数度量:是计算类别数的一种度量类型,而不是行数:它专门为选定的维度和武汉科技大学硕士学位论文第9 页层次计算唯一、非丢失和非零值。维度表示数据的最高级别层;层表示维度数据逻辑上的等级关系。维度可以典型地说明谁、什么、什么时间和什么地方一类的问题。在模型中的有效维度决定了应用能够回答问题的类型。层次化的维度是按业务的组织结构表达数据的等级关系。每个维度上层的等级则确定了未来将要钻取的路径。维度与度量值组之间区别:维度往往是离
43、散的,它是描述事实数据表中数据级别的有组织的层次结构。例如:在产品维中可乐、牛奶、肥皂和纸巾;而度量往往是可汇总的、累加的、取平均值、最大值、最小值以及方差,即可以计算的。例如S Q LS e r v e r2 0 0 5A n a l y s i sS e r v i c e s 中,维度与度量值组之间的关系 i s l:常规关系:维度与度量值组基于主一-#b 键形式。例如:星型架构中维度表与事实表之间的关系。引用关系:通过其它维度的键列,多维数据集的维度与度量值组之间联系的一种形式。例如:雪花型架构中的维度与事实表之间的关系。事实关系:又称为退化维度,是通过事实数据表而不是维度表中的列构造
44、的标准维度。例如:想看事实表中非维度属性,比如在财务方面,通常对每笔账都要做一个文字性的备注。多对多关系:通过指定联接到维表的中间事实数据表来定义维度与度量值组之间的关联。2 3 多维数据模型上的O L A P 操作概念分层(c o n c e p th i e r a r c h y)定义一个映射序列 有时也称为粒度(g r a n u l a r i t y),是指数据元素中包含的信息的确切性程度。在多维数据模型O L A P 操作中,数据组织成多维,每一维包含由概念分层定义的多个抽象层,在这些抽象层上可以进行如下操作:上钻(d r i l l u p):又称上卷操作(r o l l-u
45、p),通过一个维的概念分层向上攀升或者通过维归约,在多维数据模型上进行聚集。下钻(d r i l l d o w n):下钻操作对给定数据添加更多细节,它也可以通过添加新的维到多维模型中来实现。如图2 2 所示,按部门“北京分公司 向下钻取,得到新的维:营业部、国外部、人身险部和车险部。第1 0 页武汉科技大学硕士学位论文图z 2 按机构下钻转轴(p i v o t):(旋转(r o t a t e)是一种目视操作,它转动数据的视角提供数据的替代操作。图2 3 采用了S P S S(S t a t i s t i c a lP a c k a g e f o r t h e S o c i a
46、 lS c i e n c e 社会科学统计软件包),通过3 一D 直方图转换:轴C t a r tS a l a r y 与轴E m p l o y m e n t C a t e g o r y 对换所产生的效果图。图2 3 3-I 直方图旋转效果图2 4O L A P 立方体查询语言M D XO L A P 立方体查询语言(M D X,M u l t i d i m e n s i o n a lE x p r e s s i o n)也称作多维表达式。提供了一种多方位的、基于描述的脚本语言,用于定义、管理和查询M i c r o s o RS Q LS c t v 盯A n a l y
47、 s i sS e a v i c e s 多维模型中的数据。通过M D X 能完成计算、分组、比较、排序和筛选等功能。在整个B I 过程中M D X 作用:M D X 在数据集成和准各过程中实现构造查询和转换,在数据分析过程中定义维度、集合、计算成员和K P I 指标等,在数据展现过程中用于构造多维报表。S Q L 与M D X 的区别:S Q L 语言提供了对关系型数据库的查询用于处理二维数据,而M D X 在扩展S Q L 基础上提供了一种查询多维数据集的有效途径;与S Q L 相比,它提供了数据定义的功能,也就是表达的功能。武汉科技大学硕士学位论文第1 l 页在S Q L 中,S e
48、l e c t 子句用来指定查询列布局,而W h e r e 子句用来指定返回行布局。在M D X 中,S e l e c t 子句可用于定义多个维,而W h e r o 子句用来将多维数据限制到特定维度上或者成员上;O L A P 查询或M D X 查询返回立方体一部分,即O L A P 立方体查询语言返回的是一个立方体或者立方体的一部分。例如:为检索半导体产品中总的U n i tS a l e s 和R e g i o nS a l e s 的M D X。S e l e c t M e a s u r e s U n i tS a l e s ,M e a s u r e s R e g
49、i o ns a l e s 0 nc o l u m n s,R e g i o n R e g i o nN a m e m e m b e r s o nr o w sF r o mS a l e sW h e r eP r o d u c t A l lP r o d u c t s S e m i c o n d u c t o r再例如:使用M D X 实现利润方面前十名的产品。T o pC o u n t(P r o d u c t P r o d u c tS K U M e m b e r s,1 0,M e a s u r e P r o f i t a b i l i t
50、 y )基于上述两例,可总结M D X 查询中的多维概念是通过以下三点得以实现的:成员:维度树上的一个节点,可能是枝干节点,或者叶子节点;元组:多维数据集上的一个子集;数据集合:多维数据集上的若干个子集的集合。在多维数据查询语言研究领域,提出一种基于M D X 的多维数据查询语言:M D S Q L 1 6 1。它全面支持M D X,并且将多维查询的结果处理到电子表格上进行显示,语法较M D X 简洁清楚。2 4O L A P 与数据挖掘联机分析处理和数据挖掘都是在数据仓库上获取两种不同目标的数据增值技术。通俗地讲,O L A P 是用来分析过去的,报告过去的事情;O L A P 将现有大量数