《房屋维修基金信息管理系统的开发.pdf》由会员分享,可在线阅读,更多相关《房屋维修基金信息管理系统的开发.pdf(62页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、华中科技大学硕士学位论文房屋维修基金信息管理系统的开发姓名:罗玮申请学位级别:硕士专业:软件工程指导教师:陆永忠20061023华中科技大学硕士学位论文摘要住房制度改革是建立社会主义市场经济体制的重要步骤。国务院关于深化城镇住房制度改革的决定发布后,全国的住房体制改革都加快了步伐,住房分配货币化、住房商品化已经深入人心,房地产业得到快速发展,而越来越多的商品房也开始超过保修期,公共部位、设施设备的维修问题会影响到社会和谐,及时建立维修基金并对维修基金进行有效管理的重要性显得非常突出。开发房屋维修基金管理系统并从系统数据中提取有价值的信息用以政府的宏观决策也是颇受期待。数据挖掘(D a t aM
2、 i n i n g)是从数据中提取出隐含的、特别的、过去未知的、潜在有价值的信息的技术,采用具体的数据挖掘算法从数据集中挖掘出有用知识的过程,是数据挖掘研究的核心环节。数据仓库(D a t aW a r e h o u s e)是一个支持决策过程的数据集合,也是分析利用综合数据的数据管理系统,在数据仓库中采用数据挖掘技术为数据的深层次利用提供了有力的保障。数据挖掘技术在商业上实际应用十分丰富。对于房地产市场研究,数据挖掘可以应用于宏观经济形势研究、市场发展趋势研究、楼盘供应研究、竞争对手研究、客户研究。论文在开发房屋维修基金管理系统的基础上,通过对数据挖掘技术的研究,设计基于数据挖掘的房屋基
3、金管理数据分析功能模块,从而升级与延伸了房屋维修基金管理系统功能。对系统设计过程中所遇到的数据库设计、业务流程、系统实现、数据预处理、数据挖掘等问题给出了解决方案,对部分挖掘任务予以实现,最后提出了系统完善的设想和目标。关键词:数据挖掘数据仓库房屋维修基金数据补整华中科技大学硕士学位论文A b s t r a c tW i t ht h ec o n s t a n td e e p e n i n go ft h eh o u s es y s t e mr e f o r m a t i o n,h o u s eb e c o m i n gc o m m o d i t yh a ss
4、 t r i k e nr o o ti nt h eh e a r t so ft h ep e o p l e,a n dm o r ea n dm o r ec o m m o d i t yh o u s e sh a v eb e g u nt oe x c e e dt h ed e a d l i n eo fm a i n t e n a n c e t h e r e f o r e,t h ep r o b l e m sa b o u tt h em a i n t e n a n c eo ft h ep u b l i cs e c t i o n s,f a c i
5、 l i t i e sa n de q u i p m e n tw i l li n f l u e n c et h ed e v e l o p m e n to fh o u s i n gi n d u s t r ya n dt h es e t t l e m e n to ft h es o c i e t y I t sq u i t ei m p o r t a n tt ob u i l dm a i n t e n a n c ef u n di nt i m ea n dm a n a g ei te f f i c i e n t l ya n dt h ei m
6、 p o r t a n c ew i l lb ev e r ys t r i k i n g H e n c e,i ti st a k e nf o rg r a n t e dt oe x p e c tt oe x p l o i th o u s i n gm a i n t e n a n c ef u n dm a n a g e m e n ts y s t e ma n da n a l y z et h ev a l u a b l ek n o w l e d g et h r o u g ht h es y s t e m a t i cd a t at og u i
7、 d et h eg o v e r n m e n t a ld e c i s i o n s D a t aM i n i n gi st h ep r o c e s so fa n a l y z i n gd a t af r o md i f f e r e n tp e r s p e c t i v e sa n ds u m m a r i z i n gi ti n t ou s e f u li n f o r m a t i o n i n f o r m a t i o nt h a tc a nb eu s e dt oi n c r e a s er e v e
8、 n u e,c u t sc o s t s,o rb o t h D a t aW a r e h o u s ei sad a t am a n a g e m e n ts y s t e mo fa n a l y z i n g,e x p l o i t i n ga n ds y n t h e s i z i n gd a t aa sw e l la sad a t aa s s e m b l yS u p p o r t i n gt h ep r o c e s so fd e c i s i o n I t sa ni s s u ei nt h eC o m p
9、u t e rw o r l dt oa d o p tt h et e c h n o l o g yo fD a t aM i n i n gi nD a t aW a r e h o u s ea n dt h ec o m b i n a t i o no ft h e mp r o v i d e st h ef o r c e f u lg u a r a n t e ef o rf u r t h e ru t i l i z i n gt h ed a t a I nt h ep a p e r,m yr e s e a r c ha i m sa te x p l o i t
10、 i n gh o u s i n gm a i n t e n a n c ef u n dm a n a g e m e n ts y s t e m,o nt h eb a s i so fw h i c h,t h ea n a l y s i sm o d u l ef o rh o u s i n gf u n dm a n a g e m e n ts y s t e mw i l lb ed e s i g n e db a s e do nt h eD a t aM i n i n g,t h u se s c a l a t i n ga n de x t e n d i
11、n gt h ef u n c t i o no fh o u s i n gm a i n t e n a n c ef u n dm a n a g e m e n ts y s t e m I na d d i t i o n,as o l u t i o nh a sb e e np r o v i d e dt os u c hp r o b l e m sm e tw i t hd u r i n gt h ec o u r s eo fs y s t e md e s i g na st h ed e s i g no fd a t a b a s e,d a t ap r e
12、p r o c e s s i n ga n dd a t am i n i n g M e a n w h i l e,s o m et a s k so fD a t aM i n i n gh a v ec o m et r u e A tt h ee n do fm yp a p e r,t h es y s t e m a t i ca n dp e r f e c ta s s u m p t i o n sa n da i m sh a v eb e e nb r o u g h tu p K e yw o r d s:D a t aM i n i n gD a t aW a r
13、 e h o u s eH o u s i n gM a i n t e n a n c eF u n dD a t aR e c o v e r独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律效果由本人承担。学位论文作者签名:、罗砰日期:否年,。月巧日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的
14、复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等幅值手段保存和汇编本学位论文。本论文属于保密口,在年解密后适用本授权书不保密回。(请在以上方框内打“寸)学位论文作者签名:罗咔日期:加j 年l,月。l 厂日一华中科技大学硕士学位论文1 绪论国务院关于深化城镇住房制度改革的决定发布后,全国的住房体制改革都加快了步伐,住房分配货币化、住房商品化已经深入人心,房地产业得到快速发展,越来越多的商品房开始超过保修期,公共部位、设施设备的维修问题逐渐显现出来,直接影响房地产业发展乃至影响社会和谐,及时建立维修基金并对
15、维修基金进行有效的管理显得尤为重要为了促进房地产行业和物业管理行业长期、稳定、健康地发展,维护业主的长远利益,构建和谐社会,采用现代化的信息技术手段管理房屋维修基金已是成为政府有关部门的必然选择。住宅信息是能很好体现城市居民消费水平、生活质量的信息,也是最能体现房地产市场的信息,若能从住房信息中挖掘出有价值的信息,如住房价格、住房地段分布和居民生活水平等信息以及它们之问的关联关系,分析出有价值的知识,提交有关决策部门,为公交路线、管道管线的设置,学校、商店等城市公共设施的合理布局等进行科学决策,是一件非常有意义的工作。1 1 房屋维修基金管理简介根据建设部、财政部关于印发 的通知,公共维修基金
16、是为住宅长期维护使用提供的资金保证,每个购房人在办理契约过户手续前,都应按购房款一定比例进行缴纳。维修基金管理依“专户存储,专款专用,按幢设账,核算到户”的原则管理。专项用于住宅共用部位共用设施设备保修期满后的维修工程,也就是除日常运行维修养护范围以外的中修、大修及改造、更新工程。共用部位共用设施设备是指住宅楼房内或物业管理区域内属全体产权人或部分产权人共同所有且使用的房屋的有关部位及设施设备。一般包括:房屋的承重结构(包括住宅的基础、承重墙体、梁柱、楼盖等)、非承重结构的住户墙外墙面、屋盖、屋面、大堂、公共门厅、走廊、过道、楼梯间、电梯井、楼内化粪池、垃圾通道、楼内下水立管及通向污水井的下水
17、管道、雨落管等,公共照明灯具、避雷装置、供电部门与房屋产权人分界点至户表盘(计费电表除外)之间的供电线路。l华中科技大学硕士学位论文共用设施设备如电梯系统、消防系统、保安系统、中央监控系统、供水系统,中央空调系统、天线接收系统;物业管理区域内的物业管理用房,空地、道路、绿地、变配电系统、市政排水设施、物业管理区域的外围护栏及围墙(上述系统中归专业管理部门所有的除外)。业主委员会成立后,由业委会委托物业管理企业实施住宅共用部位共用设施设备保修期满后的维修服务。业委会成立前(即维修基金代管期间),维修基金原则上不得使用。确需使用的,应先对维修必要性及费用进行评估、核算和认定。业委会成立后,物业管理
18、企业应在每年年初制定房屋及小区公共设施维修计划及经费预算,报业委会批准后执行。维修项目完成后,物业管理企业持业委会批准的维修基金支取证明到维修基金管理中心办理支取手续;业委会应根据竣工决算进行维修基金的具体分摊,并计入各产权人明细户中。住宅共用部位共用设施设备须进行维修工程的,属人为损坏的,由责任人承担费用,不得使用维修基金;无法确定责任人的,按照受益人原则分摊。利用产权人共有部位共有设施设备进行经营活动的净收益,应存入维修基金专户,分摊后计入物业管理区域内的产权人明细户,用于物业管理区域内共用设旅的维修工程。维修基金闲置时,经产权人大会批准,业主委员会可购买国债或法律法规规定的其他范围,严禁
19、挪作他用。1 2 课题来源和研究意义房屋维修基金管理系统系受某市房屋维修基金管理部门委托,针对该市维修基金的归集和使用管理采用的是传统的手工操作方式,全市基金管理点分布较广,资金管理量大,管理成本较高、工作效率低、劳动强度大、手工操作数据精度低等问题,主要实现维修基金的分户信息管理、维修基金的合理分摊、各业主维修基金明细账目的查询以及向主管部门上报维修基金的使用情况,处理广大业主、业主管委会、物业管理公司在基金使用过程中各项业务,以达到对维修基金的合理使用和动态实时监控的目的。虽然房屋维修基金管理系统把基金使用过程中的各项业务管理起来了,但是由于委托方考虑到开发进度、开发费用等因素。在房屋维修
20、基金管理系统的需求中明确提出先开发业务管理系统,择时再开发数据分析功能模块的两步走要求。为此,2华中科技大学硕士学位论文房屋维修基金管理系统采集到的城市居民住房信息在原系统中的资源利用仅停留在一些基本的统计与分析功能,利用深度低,需要在房屋维修基金管理系统将维修基金科学有效的管理起来的基础上,升级与延伸房屋维修基金管理系统分析功能。通过查阅相关资料我们发现,为有效管理利用房屋维修基金,各地陆续开发使用适合本地实际情况的维修基金管理系统,但在此基础上,通过对数据挖掘技术的研究,设计基于数据挖掘的房屋基金管理分析功能模块,从而升级与延伸房屋维修基金管理系统功能的做法却鲜有报道,这是一件非常有意义的
21、工作。住房信息是最能体现城市居民消费水平、生活质量的信息,也是最能体现房地产市场状况的信息。若能从住房信息中挖掘出有价值的信息,如住房价格、住房地段分布和居民生活水平等信息以及它们之间的关联关系等,为房地产商房产开发中的产品定位、价格制定等提供参考,为政府对公交路线、管道管线的设置,对学校、商店等城市公共设施的合理布局等提供科学决策依据,是一件非常有意义的工作。随着房屋维修基金管理系统采集到的数据大量增加,系统使用部门也有了一些对这批数据加以挖掘的意向,希望从该系统数据中分析出有价值的知识用以指导有关决策。数据仓库是一个“以大型数据管理信息系统为基础的、附加在这个数据库系统之上的、存储了从企业
22、所有业务数据库中获取的综合数据的、并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统”。如果说传统数据库系统的重点与要求是快速、准确、安全、可靠地将数据存进数据库中的话,那么数据仓库的重点与要求就是能够准确、安全、可靠地从数据库中取出数据,经过加工转换成有规律的信息之后,再供管理人员进行分析使用。为此在升级与延伸房屋维修基金管理系统分析功能时,我们将分析功能建立在数据仓库的基础上。数据挖掘(D a t aM i n i n g D M)是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的处理过程,这种处理过程是一种高级的处理过程。1。在房屋维修基金管理系统的应用中已经积累大
23、量数据,而且还在迅速增加和扩大,因此,在房屋维修基金管理系统中采用蹦技术成为必然,对数据资源通过数据分类、聚类、关联分析等蹦技术发掘出隐含的、重要的、有意义的信息,为有关部门提供决策依据。通过查阅有关资料,我们发现为了有效管理利用房屋维修基金,各地陆续开发使用适合本地实际情况的维修基金管理系统,但在此基础上,通过对数据挖掘技术3华中科技大学硕士学位论文的研究,设计基于数据挖掘的房屋基金管理分析功能模块,从而升级与延伸房屋维修基金管理系统功能的做法却鲜有报道。1 3 本文的工作和论文组织本文的主要工作是在开发房屋维修基金管理系统,将维修基金科学有效的管理起来的基础上,升级与延伸房屋维修基金管理系
24、统功能,设计基于数据挖掘的房屋基金管理功能模块。我们将采集到的数据提交给数据仓库,利用数据挖掘技术对其进行分析,并使用M A T L A B 工具对部分挖掘任务予以实现。(1)第一章简单介绍了本文的背景。首先介绍房屋维修基金管理基本情况,指出研究基于数据挖掘的房屋基金管理分析功能模块的意义。(2)第二章对数据仓库的定义、特点,体系结构与数据挖掘的概念、数据挖掘的任务、应用领域以及一般处理过程基本知识进行介绍,为以后系统开发提供理论基础。(3)第三章在介绍房屋维修基金管理系统的基础上,提出房屋维修基金管理系统的系统结构,最后对系统所处理的任务和目标进行分析,为具体实现明确了方向。(4)第四章介绍
25、了基于数据挖掘的房屋维修基金管理系统的构建过程,对本系统数据库的设计、系统实现、系统测试等环节及所涉及的技术进行讨论。最后利用本系统的分析功能对住房信息进行处理,对结果进行分析。(5)第五章对基于数据挖掘的房屋维修基金管理系统将来的工作做了一些展望。4华中科技大学硕士学位论文2 相关技术分析信息作为现代企业的宝贵资源,占据着越来越重要的地位,已经成为现代科学管理的基础、正确决策的前提与有效调控的手段。能否拥有及时,准确、全面的信息已经成为衡量一个企业是否具有发展潜力的一个重要指标。经过多年的努力,目前大多数企事业单位根据自己的业务特点和办公的需要,建立了一大批各自的业务处理系统和办公自动化系统
26、,积累了大量的业务数据。这些业务信息系统为提高工作效率,减少重复性的工作起到了积极的作用,做出了巨大贡献。然而,现有信息管理系统中的数据分析工具无法对数据进行深层次的挖掘,因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,数据仓库是以大型数据管理信息系统为基础,存储了从业务数据库中获取的综合数据,并能利用这些综合数据为用户提供经过处理后的有用信息的应用系统,它的出现为决策支持系统提供了行之有效的解决方案叫。2 1 数据仓库技术数据仓库概念始于本世纪
27、8 0 年代中期,首次出现是在号称“数据仓库之父”W i l l i a r aH I n m o n 的建立数据仓库一书中,即“数据仓库是面向主题的,集成的、不可更新的(稳定性)、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程”。这个定义指出了数据仓库的以下特点。面向主题:数据仓库中的数据面向主题,与传统数据库面向应用相对应。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。数据仓库应用本身并不是业务流程的再现,而是基于数据分析的管理模式的体现。集成性:数据仓库的集成特性是指在数据进入数据仓库之前,必须经过数据加工和集成,这是建立数据仓库的关键
28、步骤,首先要统一原始数据中的矛盾之处,还要将原始数据结构做一个从面向应用向面向主题的转交。稳定性:数据仓库的稳定性是指数据仓库反映的是历史数据,而不是日常事务5华中科技大学硕士学位论文处理产生的数据,数据经加工和集成进入数据仓库后是极少或根本不修改的。时效性:数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时限能满足进行决策分析的需要,而且数据仓库中的数据都要标明该数据的历史时期。2 1 1 数据仓库体系结构一个典型的数据仓库系统通常包含数据源、数据存储与管理、O L A P 服务器以及前端工具与应用四个部分f 5 I。如下图所示:图2 一l 数据仓库系统结构数据源是数据仓库系统的基础
29、,是整个系统的数据源泉。通常包括内部信息和外部信息。数据的存储与管理是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。O L A F 服务器对分析需要的数据按照多维数据模型进行再次重组,。以支持用户多角度、多层次的分析,发现数据趋势。前端工具与应用主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库开发的应用。6华中科技大学硕士学位论文2 1 2 数据仓库模型设计
30、逻辑建模是数据仓库实施中的重要一环,因为它能直接反映出业务部门的需求,同时对系统的物理实施有着重要的指导作用。目前较常用的三种建模方法是所谓的第三范式(3 N F,即T h i r dN o r m a lF o r m)、星型模式(S t a r S c h e m a)和雪花模式(S n o w f l a k e S c h e m a)。3 N F:范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解,这个过程也称为规范化(N o r m a l i z e)。在数据仓库的模型设计中目前一般采用第三范式,它有非常严格的数学定义。如果从其表达的含义来看,一
31、个符合第三范式的关系必须具有以下三个条件:(1)每个属性的值唯一,没有多义性;(2)每个非主属性必须完全依赖于整个主键,而非主键的一部分;(3)每个非主属性不能依赖于其他关系中的属性,否则,该属性应该归到其他关系中去。第三范式的定义基本上是围绕主键与非主属性之间的关系而做出的。如果只满足第一个条件,则称为第一范式;如果满足前面两个条件,则称为第二范式,依此类推,各级范式向下兼容。大多数人在设计中央数据仓库的逻辑模型时“1 都按照第三范式来设计;而在进行物理实施时,则由于数据库引擎的限制,不得不对逻辑模型进行不规范处理,以提高系统的响应速度,只是要以增加系统的复杂度、维护工作量、磁盘使用比率(指
32、原始数据与磁盘大小的比率)并降低系统执行动态查询能力为代价。举例来说,当系统数据量很小,比如只有几个G B 时,进行多表连接之类复杂查询的响应时间是可以忍受的。但是如果数据量扩展到很大,到几百G B,甚至上T B 一个表中的记录往往有几百万、几千万,甚至更多,这时进行多表连接这样的复杂查询,响应时问长得不可忍受。必须把几个表合并,尽量减少表的连接操作。星型模式:星型模式由两种类型的表构成:事实表(f a c tt a b l e s)和维表(d i m e n s i o nt a b l e s)。事实表包括业务事件的信息,这些信息被用于查询,通常是可度量的、可连续取值的、具有可加性,其数据
33、量可达几百万甚至上亿条记录。事实表中的信息有多个维度,每个维度对应一个维表,维表包括相应维度的描述信息,这些信息用作约束条件,通常是一些文字描述的信息。在数据仓库中每个事实7华中科技大学硕士学位论文表对它的维表都有一个外键相联系。事实属性包含了适度的、关于事实表所管理的内容的数字型值,可以求和、求平均,求最大及最小,并且按照各种统计运算进行合计计算。星型模式结构简单,表的数日少,简化了元数据的理解和操作,同时易于修改。由于主要数据都在庞大的事实表中,星型模型的主要优点是可提高查询的性能和便于用户安排不同的查询,而不必把多个庞大的表连接起来,另外,星型模式符合决簸支持分析人员的思维方式,易于理解
34、和使用,因而星型模式正逐渐成为数据仓库设计的标准。雪花模式:雪花模式是星形模式的扩展,通过把某些维表规范化而将数据分解到附加的表中,以减少数据冗余,代价是降低了查询性能和增加了实现的复杂度。然而这种冗余与巨大的事实表相比,所节省的空问可以忽略。此外,由于雪花模式在执行查询时需要更多的连接操作,这会降低查询的性能。在数据仓库的应用环境中,主要有两种负载:一种是回答重复性的问题,另一种是回答交互性的问题。动态查询具有较明显的交互性特征,即在一个问题答案的基础上进行进一步的探索,即数据挖掘。在数据仓库模型设计的三种常用方法中,对于以第一种负载为主的部门数据集市,当数据量不大、报表较固定时可以采用星型
35、模式;而对于规模大且查询性能要求不高的数据仓库,则可以考虑采用雪花模式;对于中央数据仓库,考虑到系统的可扩展能力、投资成本和易于管理等多种因素,最好采用第三范式。2 1 3 数据仓库数据组织数据仓库中的数据分为四个级别:早期细节级、当前细节级、轻度综合级、高度综合级啪,如图2-2 所示。源数据经过综合后,首先进入当前细节级,并根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。由此可见,数据仓库中存在着不同的综合级别,一般称之为“粒度”。8华中科技大学硕士学位论文高度综合级当前细节级早期细节级图2-2 数据仓库的数据组织结构粒度可以分为两种形式,第一种粒
36、度是对数据仓库中的数据的综合程度高低的一个度量,它既影响数据仓库中的数据量的多少,也影响数据仓库所能回答询问的种类。在数据仓库中,多维粒度是必不可少的。由于数据仓库的主要作用是决策分析,因而绝大多数查询都基于一定程度的综合数据之上的,只有极少数查询涉及到细节。所以应该将大粒度数据存储于快速设备如磁盘上,小粒度数据存于低速设备如磁带上。还有一种粒度形式,即样本数据库。它根据给定的采样率从细节数据库中抽取出一个子集。这样样本数据库中的粒度就不是根据综合程度的不同来划分的,而是由采样率的高低来划分,采样粒度不同的样本数据库可以具有相同的数据综合程度。数据仓库中的元数据是“关于数据的数据”,譬如在传统
37、数据库中的数据字典就是一种元数据。在数据仓库环境下,主要有两种元数据:第一种是为了从操作性环境向数据仓库转化而建立的元数据,包含了所有源数据项名、属性及其在数据仓库中的转化;第二种元数据在数据仓库中是用来和终端用户的多维商业模型前端工具之间建立映射,此种元数据称之为D S S 元数据,常用来开发更先进的决策支持工具”。数据仓库中常见的数据组织形式有:(1)简单堆积文件:它将每日由数据库中提取并加工的数据逐天积累并存储起9华中科技大学硕士学位论文来。(2)轮转综合文件:数据存储单位被分为日、周、月、年等几个级别。在一个星期的七天中,数据被逐一记录在每日数据集中;然后,七天的数据被综合并记录在用数
38、据集中;接下去的一个星期,日数据集被重新使用,以记录新数据。同理,周数据集达到五个后,数据再一次被综合并记入月数据集。以此类推。轮转综合结构十分简捷,数据量较简单,堆积结构大大减少。当然,它是以损失数据细节为代价的,越久远的数据,细节损失越多。(3)简化直接文件:它类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。(4)连续文件:通过两个连续的简化直接文件,可以生成另一种连续文件,它是通过比较两个简单直接文件的不同而生成的。当然,连续文件同新的简单直接文件也可生成新的连续文件。对于各种文件结构的最终实现,在关系数据库中仍然要依靠“表”这种最基本的结构。2 1 4
39、 数据抽取、存储管理和数据的表现数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。因此,人们习惯于从工作过程等方面来分析数据的抽取、存储和管理、数据的表现等几个方面的技术嘲。数据的抽取:数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连,复制,增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效
40、性则至关重要。在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是离不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程的抽取l O华中科技大学硕士学位论文工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理,调度和维护则更为重要。数据的存储和管理:数据的存储和管理是数据仓库的真正关键。
41、数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。数据仓库遇到的第一个问题是对大量数据的存储和管理。数据仓库所涉及的数据量比传统事务处理大得多,且随时问的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近3 0 年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个G B 甚至到T
42、 B 的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题。好在数据仓库对联机备份的要求并不高。数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。数据仓库要解决的第三个问题是针对决策支持查询的优化。这个问题主要针对关系数据库而言
43、,因为其它数据管理环境连基本的通用查询能力都还不完善。在技术上,针对决策支持的优化涉及数据库系统的索引机制、查询优化器、连接策略、数据排序和采样等诸多部分。普通关系数据库采用B 树类的索引,对于性别、年龄、地区等具有大量重复值的字段几乎没有效果。而扩充的关系数据库则引入了位图索引的机制,以二进制位表示字段的状态,将查询过程变为筛选过程,单个计算机的基本操作便可筛选多条记录。由于数据仓库中各数据表的数据量往往极不均匀,普通查询优化器所得出的最佳查询路径可能不是最优的。因此,面向决策支持的关系数据库在查询优化器上也作了改进,同时根据索引的使用特性增加了多重索引扫描的能力。1 1华中科技大学硕士学位
44、论文数据仓库的第四个问题是支持多维分析的查询模式,这是关系数据库在数据仓库领域遇到的最严峻的挑战之一。用户在使用数据仓库时的访问方式与传统的关系数据库有很大的不同。对于数据仓库的访问往往不是简单的表和记录的查询,而是基于用户业务的分析模式,即联机分析。关系数据库本身没有提供这种多维分析的查询功能,而且在数据仓库发展的早期,人们发现采用关系数据库去实现这种多维查询模式非常低效、查询处理的过程也难以自动化。为此,人们提出了多维数据库的概念。多维数据库是一种以多维数据存储形式来组织数据的数据管理系统,它不是关系型数据库,在使用时需要将数据从关系数据库中转载到多维数据库中方可访问。数据表现:数据表现是
45、数据仓库的门面。它们主要集中在多维分析、数理统计和数据挖掘方面。多维分析是数据仓库的重要表现形式,由于M O L A P 系统是专用的,因此,关于多维分析领域的工具和产品大多是R O L A P 工具。这些产品近年来更加注重提供基于W e b 的前端联机分析界面,而不仅仅是网上数据的发布。数理统计原本与数据仓库没有直接的联系,但在实际的应用中,客户需要通过对数据的统计来验证他们对某些事物的假设,以进行决策。与数理统计相似,数据挖掘与数据仓库也没有直接的联系,而且这个概念在现实中有些含混。数据挖掘强调的不仅仅是验证人们对数据特性的假设,而且它更要主动地寻找并发现蕴藏在数据之中的规律。这听起来虽然
46、很吸引人,但在实现上却有很大的出入。市场上许多数据挖掘工具其实不过是数理统计的应用。它们并不是真正寻找出数据的规律,而是验证尽可能多的假设,其中包括许多毫无意义的组合,最后由人来判断其合理性。因此,在当前的数据仓库应用中,有效地利用数理统计就已经能够获得可观的效益。2 1 5 数据仓库的更新和维护数据仓库中的数据是如何定期向数据仓库追加数据是一个十分重要的技术。数据仓库的数据通常来自O L T P 的数据库中,判断究竟哪些数据是在上一次追加过程之后新生成的就显得非常重要。常用的技术和方法有:时标方法:如果数据含有时标,对新插入或更新的数据记录,在记录中加更新时的时标,那么只需根据时标判断即可。
47、但并非所有的数据库中的数据都含有时标。华中科技大学硕士学位论文D E L T A 文件:它是由应用生成的,记录了应用所改变的所有内容。利用D E L T A文件效率很高,它避免了扫描整个数据库,但同样的问题是生成D E L T A 文件的应用并不普遍。此外,还有更改应用代码的方法,使得应用在生成新数据时可以自动将其记录下来。但应用成千上万,且修改代码十分繁琐,这种方法很难实现。前后映象文件的方法:在抽取数据前后对数据库各作一次快照,然后比较两幅快照的不同从而确定新数据。它占用大量资源,对性能影响极大,因此并无多大实际意义。日志文件:最可取的技术大概是利用日志文件了,因为它是D B 的固有机制,
48、不会影响O L T P 的性能。同时,它还具有D E L T A 文件的优越性质,提取数据只要局限日志文件即可,不用扫描整个数据库。当然,原来日志文件的格式是依据D B 系统的要求而确定的,它包含的数据对于数据仓库而言可能有许多冗余。比如,对一个记录的多次更新,日志文件将全部变化过程都记录下来;面对于数据仓库,只需要最终结果。但比较而言,日志文件仍然是最可行的一种选择。2 2 数据挖掘技术随着计算机信息系统在全世界范围的广泛使用,在七十年代中期以来M I S 系统的大量出现,积累了大量的历史数据。近十几年来,人们在因特网(I n t e r n e t)这个平台上发布、搜集、整理储备了大量的数
49、据。因此,人们面对“信息爆炸”,叉感到“信息贫乏”的挑战,数据库中的知识发现(K n o w l e d g eD i s c o v e r yi nD a t a b a s e-K D D)或称为数据采掘(D a t aM i n i n g D M)便应运而生,并得以蓬勃发展,越来越显示出其强大的生命力 1 0 o数据挖掘是一门涉及多领域的交叉性学科,因而在不同的场合有不同的术语描述1。除了数据挖掘外,还有很多和这一术语相近似的术语,而知识发现和数据挖掘是最为常用的两个术语,其中数据挖掘主要流行于统计界、数据分析、数据库和管理信息系统界;知识发现则主要流行子人工智能和机器学界,在知识发
50、现的术语描述中,数据挖掘被理解成一个非常重要的处理步骤。而事实上,人们往往不对K D D和蹦加以区分。目前被普遍接受的定义是u M F a y y a d 等人在文献“”中提到的:“数据库中的知识发现(I(D D)是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模华中科技大学硕士学位论文式的处理过程,这种处理过程是一种高级的处理过程。”通俗的说,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2 2 1 数据挖掘过程数据库中的知识发现是一个多步骤的处理过程,一般分为“”:(1)问题定义。了解相关领域的