《数据仓库和数据挖掘在医院信息系统中的应用44499.docx》由会员分享,可在线阅读,更多相关《数据仓库和数据挖掘在医院信息系统中的应用44499.docx(151页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、摘 要 随着信息化的迅猛发展,各医院都在建立自己的信息系统,数据库规模不断 扩大,复杂程度度日益增加,从从大量的数据据中提取有用用的信息供医医院的决策服服务就 显得尤为重要。 目前前医院信息系系统(HISS)的实现,绝绝大部分采用用的是传统数数据库技术,数数据 处理以操作型处处理为主,即即联机事务处处理(OLTTP)。尽管管产生了大量量的业务数据据, 但真正对决策有有用的信息却却很少,而且且也造成了历历史数据和当当前数据、操操作数据 和分析数据的利利用与管理的的冲突。为了了解决这一问问题,数据仓仓库技术应运运而生。 北京肿肿瘤医院有其其自身的特殊殊性,治疗上上不同于其它它医院,因此此对于信息统
2、统 计、分析和管理理决策上有其其特殊要求。本本论文以FF在建设的肿肿瘤医院数据据仓库为 例,首先介绍了了数据仓库(Dw)和数数据挖掘(DDM)在肿瘤瘤医院应用课课题的来源;其次, 阐述了数据仓库库和数据挖掘掘的基本概念念,数据挖掘掘的方法、算算法,还有数数据挖掘、 在线分析(OLLAP)和决决策支持(DDSS)的差差异。最后,介介绍了肿瘤医医院数据仓库库建 立和应用的全过过程。包括阐阐述了医院信信息系统(HHIS)的基基本概念、医医院分析数据据 的历史方法及医医院信息管理理中存在的问问题。肿瘤医医院HIS数数据库的结构构设计,数 据仓库建立过程程中的数据准准备,数据仓仓库的架构、存存储,维度和
3、和粒度设计,主主题 抽取和确定,建建立多维数据据模型及多维维数据分析,数数据仓库和数数据挖掘的主主要功 能及医院实际应应用。 关键词:医院信信息系统;数数据仓库;数数据挖掘 Abbstracct Withh the fast devellopmennt of inforrmatioontechhnologgy,hosspitalls havve esttablisshed their own iinformmationn systtemsAAnd thhe scaale oof dattabasee hass beenn conttinuouusly extendiing anndthe co
4、mpllexityy beenn drammaticaally iincreaasing sincee the daythhe sysstem wwas builtUUnder this circuumstannce,too seleect thhe rigght innformaation from a masss of data for thehosppitalS deccisionnmakinng is ofuttter immportaance Theese daays thhe traaditioonal ttechniique,nnamelyy Online Trannsactii
5、on Prrocesssing (OUTP),is tthe prrimaryy waytto reaalize theHoospitaal Infformattion SSystemm(HIS)Althhou曲 a lot ofdatta cann be aacquirred byy thiss way,few oof theem aree usefful foor makking ddecisiions WhatS more,iin terrms off utillizatiion annd mannagemeent,itt causses thhe connfusioon bettwee
6、n historiical ddata aand cuurrentt dataa and the cconfliict beetweennoperaation data and aanalyssis daata To solvve thiis prooblem,tthe teechnollogy oof Datta Warrehousse(DW)emergges ass the timess requiree Commparedd withh otheer hosspitalls,Beiijing Canceer Hosspitall has its oownparrticullarityy,
7、 adoptiing ddifferrent methoods iin trreatmeentsFFor thhis reaason,iit haas soome sspeciffic requireementss on tthe sttatisttic,annalysiis andd manaagemennt of inforrmatioonThiis papper taakes the daata waarehouuse off Beijjing Canceer Hosspitall,whicch is beinng esttablisshed,aas ann examplle to in
8、trroducee:firsstly,tthe orrigin of DData WWarehoouse(DDW)andd Dataa Miniing (DM)inn the appliicatioon suubjectts of the ccancerr hosppital;Seconndly,tthe ffundammentall conceppt of DWandd DM,tthe meethod and aarithmmetic of DMM,and the ddifferrence amongg DM,OLAPP and DSS;llastlyy,the entirre couurs
9、e aabout howthhewareehousee was estabblisheed and ussed,inncludiing thhe bassic coonceptt of HHIS,thhe hisstoriccal meethod of annalyziing daata, the prroblemms invvolvedd in tthe maanagemment oof infformattion,tthe sttructuure deesign of thhe warehouuse,daata prreparaation dudngg the estabblishiing
10、 peeriod,tthe frramewoork annd stoorage of thee DW,ddesignn of ddimenssionallity aand ggranullarityy,absttractiing aand coonfirmming subjeccts,buuildinng mulltidimmensioonal ddata mmodel and aanalyzzing mmultiddimenssionall dataa, themaiin funnctionn ofDWW andDDMand someppractiical uuses iin hosspit
11、alls KeyWorrds:Hoospitaal InfformattionSyystem;Data Warehhouse;Data Mininng 图21多维立立方体9 图22企业中中数据仓库结结构10 图23大肠癌癌的决策树示示意图13 图31 医院信息息化的层次20 图32医院HHIS中四个个表的关系图图25 图33数据仓仓库所需要的的4个表的关关系27 图34费用随随时间变化的的过程图28 图35医院数数据仓库的架架构29 图36星型模模型30 图37肿瘤医医院多维立方方体的关系图图33 图38 多维数据据分析33 图39费用分分布图36 图310胃癌癌病人外科手手术的术前准准备天数
12、36 图3,11 200012004病病人数量的分分析图388 图312多维维立方体结构构图38 图313所有有诊断的费用用分布39 图314树形形显示的效果果39 图315饼图图显示效果40 图316病人人职业构成40 图317 Anaalysiss Servvices中中的聚集441 图318决策策树的树形表表示方法42 图319决策策树的公式表表示方法42 图320大肠肠癌术后决策策树部分图45 11引言 本章章主要是文献献综述,并介介绍了数据仓仓库、数据挖挖掘技术应用用于肿瘤医院院进 行的研究工作,最最后给出论文文的内容安排排。 111文献献综述 随着着计算机应用用的网络计算算的发展,
13、计计算正向两个个不同的方向向拓展:一个个是 广度计算,二是是深度计算。广度计算算是把计算机机的应用范围围尽量扩大,同同时实 现广泛的数据交交流。深度计计算是人们对对以往计算机机的简单数据据操作。目前前,深度 操作己提出了更更高的要求,希希望计算机能能够更多的参参与数据分析析与制定决策策的工 作。传统的数据据库技术是单单一的数据库库资源,它适适合操作型事事务处理,但但分析型 处理(或信息型型处理)能力力较弱【2】。数数据仓库(DDataWaarehouuse。DWW)的出现,将将 操作型环境和分分析型环境进进行了分离,划划清了数据处处理的分析型型环境与操作作型环 境之间的界限,从从而由原来的的以
14、单一数据据库为中心的的数据环境发发展为一种以以数据 仓库为中心的新新的体系化环环境【3】。 近十十几年,随着着科学技术飞飞速的发展,社社会和经济都都取得了极大大的进步,与与 此同时,在各个个领域产生了了大量的数据据,如人类对对太空的探索索,银行每天天的巨额 交易数据。显然然在这些数据据中的信息非非常的丰富,如如何处理这些些数据得到有有价值 的信息,人们进进行了有益的的探索。44】计算机技技术的迅速发发展使得处理理数据成为可可 能,这就推动了了数据库技术术的极大发展展,但是面对对不断增加的的如潮水般的的数据, 人们不再满足于于数据库的查查询功能,提提出了深层次次的问题:能能不能从海量量数据中 提
15、取信息或者知知识为决策服服务。仅就数数据库技术而而言已经显得得无能为力了了,同样, 传统的统计技术术也面临着极极大的挑战【551。这就急急需有新的手手段、新的技技术来处理 这些巨量数据。于于是,人们结结合统计学、数数据库、机器器学习等技术术,提出数据据挖 掘(Data Mininng,DM)来解决这一一难题【6。 11111国内外现状状 在国国外,数据挖挖掘已经有不不少成功案例例。数据挖掘掘首先在金融融、证券、电电信、 零售业等数据密密集型行业实实施,因为这这些行业信息息化程度比较较高,数据库库中已经 保留了大量数据据资源。例如如,总部位于于美国阿肯色色州的世界著著名商业零售售连锁企业 沃尔玛
16、(Wall Martt)的”尿布与啤酒酒”的故事。沃沃尔玛拥有世世界上最大的的数据仓库 系统,通过数据据挖掘工具,得得到了一个意意外发现:跟跟尿布一起购购买最多的商商品竟 然是啤酒。进一一步的分析,揭揭示了隐藏在在”数据关联”背后的行为为模式,”啤酒与尿 布”的著名故事事,可谓是数数据挖掘产生生巨大价值的的经典案例。当当企业拥有大大量的数 据之后,如何从从这些数据中中”攥出油水”,才是企业业信息化价值值体现的最终终目的。 有数数据表明,进进入二十世纪纪90年代,人人类积累的数数据量以每月月高于15的速 度增加,如果不不借助强有力力的挖掘工具具,仅依靠人人的能力来理理解这些数据据是不可 能的。
17、数据据挖掘的前景景被人们普遍遍看好。国际际知名调查机机构Garttner GGroup在在高级 技术调查报告中中,将数据挖挖掘和人工智智能列为“未来三到五五年内将对工工业产生深 远影响的五大关关键技术”之首,还将将并行处理体体系和数据挖挖掘列为未来来五年内投 资焦点的十大新新兴技术前两两位【”。Garttner的调调查报告预计计:到20110年,数据据挖 掘在相关市场的的应用将从目目前少于5增加到超过过80。美美国银行家协协会预测数据据 仓库和数据挖掘掘技术在美国国商业银行的的应用增长率率是1499。 与国国外相比,国国内对知识发发现的研究较较晚,而且较较为分散,没没有形成整体体力 量。90年
18、代,国国家自然科学学基金曾支持持过对该领域域项目的研究究,但实际应应用不多。 目前,国内的的许多科研单单位和高等院院校竞相开展展知识发现的的基础理论及及其应用研 究,这些单位包包括清华大学学、中科院计计算技术研究究所、空军第第三研究所、海海军装 备论证中心等【881。其中,北北京系统工程程研究所对模模糊方法在知知识发现中的的应用进 行了较深入的研研究,北京大大学也在开展展对数据立方方体代数的研研究,华中理理工大学、 复旦大学、浙江江大学、中国国科技大学、中中科院数学研研究所、吉林林大学、北京京理工 大学等单位开展展了对关联规规则开采算法法的优化和改改造;南京大大学、四川联联合大学 和上海交通大
19、学学等单位探讨讨、研究了非非结构化数据据的知识发现现以及Webb数据挖掘。 虽然然国内有很多多大学和研究究机构从事数数据仓库技术术的研究,但但到目前为止止, 国内基本上没没有成熟的数数据仓库解决决方案。在医医疗行业的应应用更是少之之又少。 目目前提供数据据挖掘产品的的厂商非常多多,如著名的的产品有SAAS Entterpriise Miner、NNCR TTeradaata WWarehoouse Minerr、SPSSS Clemmentinne 70、IBMM DB22 Intellligentt Minee、SQL Serveer 20000数据挖掘掘组件、Orracle99i Datt
20、a Minning、 CA C1evverPatth Preedictiive AnnalysiiS Seerver、DDMinerr等。这些产产品各有特色色: NCR、IBMM、ORACCLE等数据据挖掘工具可可以直接在数数据库上进行行挖掘;SAAS提供了数数 据获取、取样、筛筛选、转换工工具来构造要要挖掘的数据据集;SPSSS针对具体体应用领域 推出了多个应用用模版,以简简化应用开发发过程。 Microosoft将将OLAP功功能集成到 Microsooft SQQL Seerver 70中,提提供可扩充的的基于COMM的OLAPP接口。它通通过一 系列服务程序序支持数据仓仓库应用。数数据
21、传输服务务DTS(DData TTransfformattion Servicees)提供数数据输入输输出和自动调调度功能,在在数据传输过过程中可以完完成数据 的验证、清洗洗和转换等操操作,Miccrosofft Offfice 22000套件件中的Acccess和EExcel 可以作为数据展展现工具,另另外SOL Serveer还支持第第三方数据展展现工具。 12数据仓仓库和数据挖挖掘在医院应应用的课题来来源 随着着计算机技术术的飞速发展展和企业不断断提出新的需需求,传统的的数据库技术术以 单一的数据资源源,即数据库库为中心,进进行事务管理理、批处理以以及各种类型型的数据 处理工作。不同同类
22、型的数据据处理有着不不同的处理特特点,以单一一的数据组织织方式进 行组织的数据满满足不了数据据处理的多样样化的要求,因因此数据仓库库技术应运而而生。 数据仓库技术以以传统的数据据库作为存储储数据和管理理资源的基本本手段,以统统计分析 技术作为分析数数据和提取信信息的有效方方法,它是诸诸多学科相互互结合、综合合利用的 技术。 北京京肿瘤医院已已经运行了医医院管理系统统将近5年的的时间,积累累了大量的数数据, 还有其他的独立立的信息系统统的数据,比比如(放射科科、检验科、医医疗保险),而而这些 数据由于彼此独独立并且成为为历史,没有有得到再利用用。目前,有有极少的医院院能够整 合这些数据,充充分利
23、用。在在此基础上,为为了便于领导导查询、分析析并支持决策策,本 人在完成硕士论论文期间提出出了“数据仓库和和数据挖掘在在肿瘤医院中中的应用”这个 研究题目,并在在医院中也申申请了“肿瘤医院数数据仓库的建建立和应用”研究课题。 本论论文正是围绕绕着建立肿瘤瘤医院数据仓仓库以及在此此基础上的分分析和数据挖挖掘 来讨论数据仓库库技术及联机机分析技术、数数据挖掘技术术的。 13论文的工工作 本文文研究的主要要内容是首先先以一、两个个病种为例,从从肿瘤医院现现有的HISS数 据出发,探讨建建立管理信息息数据仓库(Data Warehhouse)的方法;其其次能够在此此基 础上,开展单病病种费用研究究,使
24、用新的的费用管理指指标,应用数数据挖掘技术术(Dataa Mining)中的粗糙集集理论对过度度诊断和治疗疗的识别问题题进行试分析析。本文主要要工 作包括以下几个个方面: 数据预处理理的研究 由于于数据库系统统所获数据量量的迅速膨胀胀(已达G或或T数量级),从而导致致了现 实世界数据库中中常常包含许许多含有噪声声、不完整、甚甚至是不一致致的数据。显显然对 数据挖掘所涉及及的数据对象象必须进行预预处理。 数据据预处理主要要包括:数据据清洗(daata clleaninng)、数据据集成(daata interggratiOOn)、数据据转换(daata trransfoormatiion)、和和
25、数据消减(data reducctiOn) 数据仓库建建立过程的多多维分析的实实现 本文文介绍了利用用微软的Annalysiis Serrvicess工具在已经经进行整理的的数据的基 础上建立一个数数据仓库的过过程,包括如如何设计主题题、维度、粒粒度,对数据据仓库进 行钻取、旋转等等操作,如何何存储数据仓仓库,以及如如何用可视化化工具进行进进一步分 析的全过程。 数据挖掘的几几个算法的尝尝试 在已已有数据的基基础上,找出出一些完整的的、有分析价价值的数据,利利用数据挖掘掘 中的一些算法如如(决策树IID3算法、聚聚集、粗糙集集中RSL语语言)来对数数据进行试 探性的数据挖掘掘。并用微软软的An
26、allysis Serviices中的的数据挖掘模模型来实现决决策 树和聚集方法的的数据挖掘,并并得到有用的的知识。 下一步工作的的展望 由于于时间和人力力的原因,本本文只能做些些探讨性的分分析和研究,整整个工作尚不不 能成为成熟的可可应用于实际际的工具。但但本人已在医医院中申请了了这个项目的的课题, 并已经被批准,并并得到了院长长、科主任的的高度重视。因因此会在未来来重点地研究究, 并希望能够得到到理想的效果果。 此项项工作与HIIs的区别 联机机分析技术(OLAP)就是对大量量信息进行复复杂分析操作作和决策制定定的软件系 统。为了提高效效率和有效性性,必须把分分析型数据从从事务处理环环境中
27、提取出出来,按 照决策支持系统统处理的需要要进行重新整整合,建立单单独的分析处处理环境。数数据仓库 正是为了构建这这种新的分析析处理环境而而出现的一种种数据存储和和组织技术。与与HIS 不同之处在于,数数据仓库是对对历史数据的的批处理操作作、按照主题题进行分解合合并重 新组织,是深层层次分析利用用的基础。HHIS主要作作用是使让大大量的日常业业务(如挂号号、 划价、收费、结结算等等)电电子化,以提提高医院工作作效率和工作作质量。HIIS的应用是是 面向联机事务处处理(OLTTP)。 14论文的的组织结构 全文文分为三章各各章组织如下下: 第一一章,为引言言,主要内容容有研究的技技术背景,本本篇
28、论文主要要工作、组织织结 构的介绍。 第二二章,介绍了了数据仓库的的概念和体系系结构;数据据挖掘的方法法、算法;多多维 数据分析和数据据挖掘与决策策支持的联系系与区别。 第三三章,是对在在肿瘤医院建建立数据仓库库全过程的详详细描述,包包括医院信息息管 理系统的介绍和和国内外的动动态:医院分分析数据的历历史方法,存存在的问题以以及数据 仓库架构、数据据存储、粒度度和维度的设设计、主体的的提取和确定定、数据仓库库实现的 功能;数据挖掘掘的应用实例例,有几种算算法的演示和和说明。 最后后,为结束语语包括了对上上述论文的总总结,和对下下一步工作的的展望。 第2章数数据仓库与数数据挖掘 21数据仓库库的
29、定义 211数据据仓库的定义义 信息技技术的不断推推广应用,将将企业带入了了一个信息爆爆炸的时代。每每同、每时、 每刻都有潮水般般的信息出现现在管理者的的面前,等待待管理者去处处理、去使用用。这些 管理信息的处理理类型主要是是对管理信息息的处理类型型,主要有事事务型处理和和信息型 处理两大类。事事务型处理,也也就是通常所所说的业务操操作处理。这这种操作处理理主要 是对管理信息进进行日常的操操作,对信息息进行查询和和修改,目的的是满足组织织特定的 日常管理需要要【9。在在信息型处理理中管理者关关心的是信息息能否得到快快速的处理,信信 息的安全性能否否得到保证,对对信息作进一一步的分析,为为管理人
30、员的的决策提供支支持。 例如如,为决策支支持系统、经经理信息系统统、战略信息息系统等提供供信息分析的的支 持。这种类型的的信息处理在在现代企业中中的应用越来来越广泛,越越来越引起管管理人员 的重视。管理理信息的信息息型处理,必必须访问大量量的历史数据据才能完成;而不像事 务型处理那样,只只对当前的信信息感兴趣1。因此,在在信息型处理理中,产生了了与操 作性处理所采用用的传统数据据库有很大差差异的数据环环境要求。 目目前,数据仓仓库一词尚没没有一个统一一的定义,著著名的数据仓仓库专家WHInmmon 在其著作Buuildinng theeData Warehhouse)一书中给给予如下描述述:数
31、据仓库库(Dataa Warehouuse)是一一个面向主题题的(Subbject Oriennted)、集集成的(Inntegraate)、相相 对稳定的(NoonVolattile)、反反映历史变化化(Timee Variiant)的的数据集合,用用于支 持管理决策。对于数据据仓库的概念念我们可以从从两个层次予予以理解,首首先,数据 仓库用于支持决决策,面向分分析型数据处处理,它不同同于企业现有有的操作型数数据库; 其次,数据仓库库是对多个异异构的数据源源有效集成,集集成后按照主主题进行了重重组, 并包含历史数据据,而且存放放在数据仓库库中的数据一一般不再修改改。 根据据数据仓库概概念的含
32、义,数数据仓库拥有有以下四个特特点: l、面面向主题。操操作型数据库库的数据组织织面向事务处处理任务,各各个业务系统统之 间各自分离,而而数据仓库中中的数据是按按照一定的主主题域进行组组织。主题是是一个抽 象的概念,是指指用户使用数数据仓库进行行决策时所关关心的重点方方面,一个主主题通常 与多个操作型信信息系统相关关。 2、集集成的。面向向事务处理的的操作型数据据库通常与某某些特定的应应用相关,数数据 库之间相互独立立,并且往往往是异构的。而而数据仓库中中的数据是在在对原有分散散的数 据库数据抽取、清清理的基础上上经过系统加加工、汇总和和整理得到的的,必须消除除源数 据中的不一致性性,以保证数
33、数据仓库内的的信息是关于于整个企业的的一致的全局局信息。 3、相相对稳定的。操操作型数据库库中的数据通通常实时更新新,数据根据据需要及时发发 生变化。数据仓仓库的数据主主要供企业决决策分析之用用,所涉及的的数据操作主主要是数 据查询,一旦某某个数据进入入数据仓库以以后,一般情情况下将被长长期保留,也也就是数 据仓库中一般有有大量的查询询操作,但修修改和删除操操作很少,通通常只需要定定期的加 载、刷新。 4、反反映历史变化化。操作型数数据库主要关关心当前某一一个时间段内内的数据,而而数 据仓库中的数据据通常包含历历史信息,系系统记录了企企业从过去某某一时点(如如丌始应用 数据仓库的时点点)到目前
34、的的各个阶段的的信息,通过过这些信息,可可以对企业的的发展历 程和未来趋势做做出定量分析析和预测【112】。 212数据据仓库与数据据库比较 从“库”到“仓库” 数据据仓库,是在在数据库已经经大量存在的的情况下,为为了进一步挖挖掘数据资源源、 为了决策需要而而产生的,它它决不是所谓谓的“大型数据库库”。那么,数数据仓库与传传 统数据库比较,有有哪些异同呢呢, 如表211所示: 表221数据库库和数据仓库库的对比裹【113】 对比内容 数据库 数据仓库库 数据内容 当前值 历史的、存存档的、归纳纳的、计算的的 数据 数据目标 面向业务务操作程序重重复处理 面向主题题域,分析应应用 数据特性 动态
35、变化化按字段更新新 静态、不不能直接更新新,只能定时时添 加、刷新新 数据结构 高度结构构化复杂化和和操作计算 简单适适合分析 使用频率 高 中到低 数据访问量 每个事务务之访问少量量记录 有的事务务可能需要访访问大量记录录 对响应时间的要要求 以秒为单单位计算 以秒、分分钟甚至小时时为计算单位位 数据据仓库的出现现,并不是要要取代数据库库。目前,大大部分数据仓仓库还是用关关系 数据库管理系统统来管理的。可可以说,数据据库、数据仓仓库相辅相成成、各有千秋秋【l。 213数据据仓库的体系系结构 数据据仓库的体系系结构分为数数据获取层、数数据存储层、数数据挖掘层等等多个部分。 1数据获取层层 数据
36、据获取层把决决策主题所需需要的数据(当前的、历历史的),从从各种相关的的业务 数据库或数据文文件等外部数数据源中抽取取出来,进行行各种必要的的清洗、整合合和转换 处理,再将这些些数据集成存存储到仓库中中”。数据获获取层在数据据仓库的整体体系统应 用中占有非常重重要的地位。 2数数据存储层 数据存存储层以一定定的组织结构构存储各种主主题数据。数数据仓库包括括多个主题, 一个主题的数据据通常存储在在一个数据库库中,包括该该主题的一些些综合性表,如如主题 中选择的事实表表、维表,还还有为数据挖挖掘生成的中中间表等。 3数数据挖掘层 数据据挖掘层集成成各种数据挖挖掘的算法,包包含具有很强强功能的数据据
37、挖掘工具, 可以提供灵活有有效的任务模模型、组织形形式,以支持持各项决策的的数据挖掘任任务。 数据据挖掘与数据据仓库的概念念是密不可分分的,数据挖挖掘要求有数数据仓库作为为基 础,并要求数据据仓库已经存存有丰富的数数据。数据挖挖掘比本文后后面谈到的多多维分析 更进一步。举例例,假如以某某类产品的销销售情况为例例,如果管理理人员要求比比较各个 区域某类产品销销量在过去一一年的情况,可可以从多维分分析中找答案案。但是,如如果管 理人员要问为何何一种产品销销量在某地区区的情况突然然变得特别好好或不好,或或者问该 产品在另一地区区将会怎样,这这些是用多维维分析工具难难以简单解决决的问题,就就需要 利用
38、数据挖掘工工具寻找回答答。 在实实旌智能化决决策时,一般般分为两个步步骤:第一步步实现数据仓仓库和多维分分析, 构造智能决策的的基础,实现现分析应用:第二步实现现数据挖掘,再再发挥智能化化决策 的特色【l”。数数据挖掘是数数据利用价值值的再发现,它它突破了传统统意义上的数数据查询, 是在更大的尺度度上、更深的的层次中对数数据提高利用用的价值,是是数据仓库应应用的关 键。 214联机机分析处理(OLAP) 1联机分析处处理(OLAAP)的概念念 联机机分析处理(OLAP)的概念最早早是由关系数数据库之父EEFCoodd于19993年 提出的,他同时时提出了关于于OLAP的的12条准则则。OLAP
39、P的提出引起起了很大的反反响, OLAP作为一一类产品同联联机事务处理理(OLTPP)明显区分分开来【177。 当今今的数据处理理大致可以分分成两大类:联机事务处处理OLTPP(0nLine Transacction Proccessinng)、联机机分析处理OOLAP(OOnLine Anallyticaal Processsing)。OOLTP是传传统的关系型型数据库的主主要应用,主主要是基本的的、日常的 事务处理,例如如银行交易【11”。OLAPP是数据仓库库系统的主要要应用,支持持复杂的分析析 操作,侧重决策策支持,并且且提供直观易易懂的查询结结果。表22列出了OOLTP与OOLAP 之间的比较。 表表22 OLPP与OLTPP比较【199 OLLTP OLAAP 用用户 操操作人员低低层管理人员员 决决策人员,高高级管理人员员 功功能 日常操作处处理 分析决策 DBB设计 面向