数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf-淘文阁

资源描述

《数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf》由会员分享，可在线阅读，更多相关《数据整合与数据挖掘技术在医疗保险信息系统的研究与应用.pdf（5页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、实践与经验现代计算机2010.10数据整合与数据挖掘技术在医疗保险信息系统的研究与应用简伟光（广州市劳动保障信息中心，广州510000）关键词：医疗保险信息系统；数据整合；数据仓库；数据挖掘；关联规则收稿日期：2010-09-27修稿日期：2010-10-15作者简介：简伟光（1973-），男，广东广州人，本科，计算机应用工程师，研究方向为电子政务和信息工程通过分析医疗保险管理信息化深入发展的需求，从技术的角度提出医疗保险信息系统数据整合及数据挖掘的总体解决方案，并对医疗保险信息系统的数据仓库的设计、数据整合的方案以及数据挖掘的技术和应用进行概要的分析和论述，并用关联规则挖掘算法实证研究医保信

2、息挖掘的可能性与必要性。利用编码、解码技术和SQL的聚集函数，实现基于SQL的FP-Growth算法，从而突破机器内存对数据挖掘的处理效率，实现对海量数据挖掘的高效挖掘。摘要：0引言随着计算机技术的不断发展，计算机管理已经逐渐步入各个行业，而职工福利待遇体系中十分重要的医疗保险行业则更为迫切地需要借助计算机对繁杂的日常事务进行处理。数据库技术的不断发展及医疗保险信息系统的应用，产生和收集数据的能力已经迅速提高。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识手段，导致了数据爆炸但知识贫

3、乏的现象。1问题提出目前，医疗保险信息系统还是由相对独立的业务子系统所组成（例如医疗保险子系统、工伤保险子系统、生育保险子系统等），各业务子系统数据彼此独立，数据结构差异较大，因此如何将这些分散的数据进行整合，形成一个整体的、统一的医保信息库，并在此基础上，利用先进的数据挖掘技术从基础性数据和医保信息中，挖掘有利于医保业务发展的相关业务规则，为管理决策、医保政策的制定、调整和医保科学化管理提供有力支持。这都是国内医疗保险业务管理亟需解决的问题。数据仓库与数据挖掘技术的产生和发展为这个问题的解决提供了理论和方法指导。对于数据仓库和数据挖掘技术在医疗保险领域中的应用，国内研究主要体现在以下两个方面

4、：一方面，如何将数据仓库和数据挖掘技术应用到医疗保险业务管理方面的应用研究；另一方面，展开数据仓库与数据挖掘技术理论研究。但总体来说，数据仓库应用已有所展开，主要应用于一般的汇总与分类统计，没有开展深层次的统计分析。对于数据挖掘在医疗保险中的应用，目前大多数的文献仍停留在理论研究的层面，具体实现的较少，针对海量数据的特定医保主题挖掘甚少。因此，从整体而言，数据仓库技术与数据挖掘技术在医保系统中的应用还处于理论研究探讨阶段。本文接下来从两个方面来论证医保信息数据整合的必要性与数据挖掘技术在医保领域应用的可行性。2数据整合技术在医疗保险信息系统中的趧趹实践与经验现代计算机2010.10应用2.1数

5、据整合技术应用的可行性医疗保险信息数据整合（Data Integration）技术有多种，本文所指的整合技术主要是数据仓库技术。医保数据仓库技术应用中有三个基本概念：ETL、OLAP和数据仓库模型。目前比较流行的数据仓库设计模型有以下三类：概念模型。它描述的是从客观世界到主观认识的映射，它是用于为一定的目标设计系统、收集信息而服务的一个概念性的工具；逻辑模型。它描述了数据仓库的主题的逻辑实现，即每个主题所对应的关系表的关系模式的定义。目前最流行的数据仓库数据模型是多维数据模型，主要包括了星形模式、雪花模式和事实星型模式三种；物理模型。数据仓库的物理模型是逻辑模型在数据仓库中的实现，例如数据存储

6、结构、数据的索引策略、数据的存储策略以及存储分配优化等。2.2数据整合技术应用的实证分析目前，医疗保险信息系统数据一般分布在不同的系统中，如果要统一医疗保险所有的业务数据，就必须提供一个完整的医疗保险数据模型，该模型应该能够自动抽取、保存现有数据，且能满足医疗保险业务管理的需要。医疗保险信息系统的数据整合（Data Integra-tion）就是按照统一的数据标准和规则，利用ETL，将分散在各个业务子系统中的各项业务数据整合到统一的医疗保险信息数据仓库中，最终形成统一的视图的过程中。数据整合的作用主要体现在：整合了不同业务系统和业务平台的数据，有效地避免数据冗余，保证数据的一致性，以及规范数据

7、的命名和使用。医保数据整合的设计工作主要包括数据仓库设计、数据集市设计和ETL（数据的抽取、转换和加载）设计三大部分，下面将逐一进行详细分析。（1）数据仓库设计医疗保险信息系统数据仓库设计包括：逻辑模型设计与物理模型设计。逻辑模型设计的指导思想是以参保人为中心，体现参保人与账户、参保人与参保险种、参保人与交易、参保人与机构的关系，它是实现统一客户视图的核心基础。数据仓库模型的设计不同于业务数据库的设计，不需要严格按照第三范式，因为数据仓库是面向一定的分析主题。由于医疗保险信息系统的数据仓库涉及了多个分析主题，因此医疗保险信息系统的数据仓库应采用事实星型模式（Galaxy Schema）进行建模

8、。数据粒度应根据分析需要设定。为了满足业务的需要，医疗保险信息系统的数据仓库支持最小粒度的详细数据的存储（即存储所有账户的历史交易明细数据，基于业务的要求，数据一般要求系统存储至少一年以上），以支持各类的查询、分析处理。物理模型设计的指导思想是提高数据仓库的性能与数据存储管理。医疗保险信息系统的数据仓库中最大数据量的表主要是账户信息表和交易明细表，而且这两个表也是数据处理最核心的表，其存储的结构和索引的策略直接关系到系统的整体性能和效率。（2）数据集市设计由于医保信息管理系统的数据仓库的数据量巨大，如果直接在上面进行数据挖掘或OLAP处理，其效率将存在很大问题，因此为提高数据挖掘和OLAP的处

9、理效率，就需要建立专门的数据挖掘数据集市和O-LAP数据集市。为了提高数据处理的效率和节省数据存储的空间，数据集市建立在数据仓库之内，由于在基础数据之上形成的汇总表或逻辑视图组成，即通常所说的逻辑数据集市（Logic Data Mart）。数据挖掘数据集市采用水平结构设计，即每个分析对象只有一条记录，与这个对象有关的属性都作为这条记录的字段，尽量减少表与表之间的关联，以提高数据挖掘处理的效率。数据挖掘数据处理主要涉及三个大表：参保人基本信息表、账户信息表和账户交易明细表，由于这三个表的数据量非常巨大，如果在这三个表上建立逻辑视图势必效率非常低，因此应根据数据挖掘数的类型和需要，将这三个表中相关

10、字段的数据抽取和倒入另外的数据表中，专门用作数据挖掘处理。数据挖掘表在设计上存在一定的数据冗余，以提高数据挖掘的效率。数据挖掘集市数据表的数据只作为临时数据，一般只保留13个月的历史数据，数据挖掘处理完后可进行清空处理，以节省数据库的空间。（3）数据仓库技术的应用在国内某市医疗保险信息系统中，数据库使用IBM Informix Dynamic Server V9.4 For Unix，数据库服务器使用HP RP8420小型机，操作系统系统使用HP-UXVII，网络存储系统使用EMC CX500，OLAP分析工趧趻实践与经验现代计算机2010.10具使用Cognos。本次数据仓库整合技术在医疗保

11、险信息系统中的应用实证研究关关键技术有以下三点：（1）数据量分析该医疗保险信息系统的个人帐户数在500万以上，账户信息表的空间约需15G左右。个人月均交易量在10500万笔左右，账户交易明细的月增长空间约为13.6G左右，也即1年的增长空间约为16.3G左右。因此在医疗保险信息系统的数据库中，需要对以上两个数据表进行分片存储处理，以提高数据处理的效率。Infomix Dynamic Server提供了非常灵活的表分段（也称为分片）存储技术，该技术可以并行地扫描多个磁盘上的数据，从而实现内部查询的并行操作，因此采用表分段存储技术可以提高查询效率。该技术使用SQL语句可以将表的各个分组或分段存储在

12、指定物理磁盘相关联的独立数据库空间中，同时也可以在相同的数据库中为表创建多个分区。Infomix数据库服务器支持以下两种数据分片方案：基于表达方式。此方案将包含所指定的值的行放在同一分段中；循环法。此方案将行一个接一个地放在分段中，并在分段系列中旋转以便均匀地分布行。以下是该医疗保险信息系统利用以上分区技术实现对个人账户信息表和账户交易明细表进行分区存储的具体实现：数据库空间的创建网络存储系统EMC CX500的每个物理磁盘空间为146G，由以上的数据分析可以知道，使用6个磁盘即可以满足该医疗保险信息系统3年交易的存储需要。为了实现数据的分区存储，共创建12个数据库空间，每两个数据库空间对应同

13、一个磁盘。账户信息表分区的实现：根据设计要求，账户信息根据开户机构号的区间进行分片存储处理。账户信息表的分片存储使用Informix数据库基于表达式的分片方案。账户交易明细表分区的实现：根据设计要求，账户交易明细表根据交易时间的区分进行分片存储处理。账户交易明细表的分片存储使用Informix数据库基于表达式的分片方案，为实现分区存储，账户交易明细表不同月份的交易数据分别存储在不同数据库空间，其CREATE TABLE语句如下：CREATE TABLE账户交易明细表（交易日期DATE）FRAGMENT BYEXPRESSIONMONTH（交易日期）=1IN dbspace1，

14、MONTH（交易日期）=2IN dbspace2，MONTH（交易日期）=3IN dbspace3，MONTH（交易日期）=4IN dbspace4，MONTH（交易日期）=5IN dbspace5，MONTH（交易日期）=6IN dbspace6，MONTH（交易日期）=7IN dbspace7，MONTH（交易日期）=8IN dbspace8，MONTH（交易日期）=9IN dbspace9，MONTH（交易日期）=10IN dbspace10，MONTH（交易日期）=11IN dbspace11，MONTH（交易日期）=12IN dbspace12，（2）ETL的实现该医疗保险信息系统涉

15、及的数据源较多，目前都是考虑在源系统的数据服务器上编写SQL脚本，由相应的系统定时调度或者嵌入对方日终处理程序中调用，其ETL处理方式如表1所示。表1某医疗保险信息系统的ETL处理方式具体步骤如下：各个数据源自动卸出的文本（不管是自动卸数还是手工卸数），都由自动卸数脚本自动调用FTP将数据传输到“FTP中转服务器”上，并由脚本自动建立日期命名的的子目录，在该子目录下保存数据文本；由生产机用户的定时调脚本自动到“FTP中转服务器”上检查文件到达情况，并把达到的文件通过FTP取本到本地的指定装数路径，由医疗保险的装数进程装入数据。（3）OLAP的实现医疗保险信息系统机构主题OLAP能够对个人交易三

16、个维度（时间维度、机构维度、渠道交易维度）的统计分析结果进行展现。3数据挖掘技术在医保信息系统中的应用3.1数据挖掘技术应用的可行性数据挖掘（Data Minging，简称DM）是从大量的数据中挖掘出隐含的、先前未知的、对决策有价值并能被趧趽实践与经验现代计算机2010.10人们所理解的模式（知识）的高级数据处理过程。所谓模式，即为知识，它给出了数据的特征或数据之间的关系，是对数据所包含的信息的抽象描述。这些知识的表示形式主要为：概念、规则和规律等。数据库中知识发现是一个从数据库中挖掘有效的、新颖的、潜在有用的和最终可理解的模式的复杂过程。知识发现过程主要由以下步骤组成：数据清理；数据集成；数

17、据选择；数据变换；数据挖掘；模式评估；知识表示。随着计算机技术以及学科交叉的发展，数据挖掘技术被越来越多应用到保险的风险分析中。由于基本医疗保险覆盖面的扩大，以及建立年限的增加，基本医疗保险所积累的数据量积聚增加，将数据挖掘技术应用到基本医疗保险，具备了数据基础、数据挖掘技术对各类医疗保险分析主题的支持，使得医保管理与决策科学化。3.2数据挖掘技术应用的实证研究对了医疗保险信息系统，基于数据库的数据挖掘架构计要有两种：松耦合的架构主要是通过关系数据库的通用SQL接口，利用标准SQL语句实现数据挖掘；紧耦合的架构主要是通过调用数据库系统特有的功能接口、函数或存储过程实现数据挖掘。根据医疗保险信息

18、系统的设计原则，为了不受数据库产品的限制，医疗保险信息系统的数据挖掘架构应选择用松耦合的架构模式，并采用Java与SQL、JDBC/ODBC相结合的方式实现数据挖掘的相关功能。Java主要负责实现对数据挖掘处理流程的控制，SQL主要负责实现对数据挖掘过程中对数据的处理，即通过Java调用SQL的方式实现数据挖掘处理。以某地参加医疗保险的信息资料为样本，该数据样本由个人信息表、单位信息表、个人账户交易记录表等数据表组成。个人信息表记录的是参保个人的基本信息，例如姓名、性别、身份证号码、工作单位代码等信息；单位信息表记录的是参保单位的基本信息，例如单位职工总数、月工资总额等信息；个人账户收支表记录

19、的是个人账户的详细使用情况的基本信息，包括交易的金额、时间以及消费的医院、药店代码等信息。采用关联规则进行数据挖掘实证研究。关联规则的挖掘过程主要有两步：找出所有满足最小支持度计数的频繁项集；由频繁项集产生满足最小支持度和最小置信度的强关联规则。其中第一步是处理时间最长而且消耗系统资源最多的一步，它决定挖掘关联规则的总体性能，因此采用何种算法去找频繁项集非常关键。由于Apriori关联规则算法需要产生大量候选项集，系统资源消耗巨大，效率也非常低。而FP-Growth关联规则算法只需扫描一次数据库，对系统资源的消耗较小，效率相对较高。因此，对于海量个人交易数据的医疗保险信息系统，选用FP-Gro

20、wth算法进行关联规则挖掘较为合适，并基于SQL实现FP-Growth算法。而传统的FP-Tree的构建方法是将整个FP-Tree构建在内存，但系统内存是有限的，当数据量较大，且项集较多时，FP-Tree无法构建，因此这种方法只适合于数据量较小的情况。另外一种方法是将数据库划分成投影数据库的集合，然后分别将每个投影数据库在内存构造FP-Tree并挖掘它，这种方法虽然能够实现大数据的挖掘处理，但处理相对复杂，技术难度也较大。而基于SQL实现FP-Growth算法，则是将FP-Tree构建在数据库中，以数据表的形式存在，一方面突破了内存对算法的限制，解决了FP-Tree较大时的存放和处理问题，另一

21、方面通过运用SQL的聚集函数，充分发挥数据库系统的性能，在对较大数据量的数据进行挖掘处理时能够获得非常高的效率。通过以下在同等硬件条件和数据条件下，与SQLServer 2005数据分析服务器的关联规则挖掘处理效率的对比，较直观地反映了以上基于SQL的FP-Growth算法的性能。关联规则挖掘处理性能对比实验的实验环境如表2所示。表2实验环境实验结果：在内存为512MB的环境下。使用SQLServer 2005数据分析服务器的关联规则挖掘进行处理时出错，提示至少需要565MB的物理内存。使用基于SQL的FP-Growth算法在内存为512MB的环境下能够顺利进行处理。在内存为1024MB的环境

22、下。使用SQL Server2005数据分析服务器的关联规则挖掘处理和使用基于SQL的FP-Growth算法处理均能顺利完成，而且两趨趭实践与经验现代计算机2010.10Research and Application of Data Integration and DataMining on Medical Insurance Information SystemJIAN Wei-guang（Guangzhou Labour&Social Security Information Center,Guangzhou 510641）Keywords:Medical Insurance Infor

23、mation System；Data Integration；Data Warehouse；Data Mining；Association RulesThrough the deep analysis of developing demand of medical insurance management informatiza-tion carries out the overall solution plan for data integration and data mining of medical insur-ance information system from the poin

24、t of view of technology.Analyses and discusses summarilyon the design of data warehouse of medical insurance information system,the data integrationplan,and the data mining technology application.And researches on the possibility and necessi-ty of data mining on medical insurance information by usin

25、g the mining of association rules.Us-ing the technoloty of encoding and decoding and SQL function，especially provides the detail so-lution of SQL based FP-Growth algorithm and SQL based K-means clustering algorithmSo itcan break the limit of memory in computer,and make use of the database paralleliz

26、ation pro-cessing capabilities sufficiently,particularly in an SMP(Symmetrical Multi-Processing)environ-mentIn this way,enhances the performance of data mining on huge data enormouslyAbstract:个方法的挖掘结果一致。以上实验结果表明，基于SQL的FP-Growth算法较SQL Server 2005数据分析服务器的关联规则挖掘处理方法在不同的内存环境下更具可伸缩性，在内存较低的环境下仍然能够正常运行。同时，

27、基于SQL的FP-Growth算法比SQL Server 2005数据分析服务器有关联规则挖掘处理方法至少快4倍，具有更高的处理效率。另外，基于SQL的FP-Growth算法在不同的内存环境下的处理效率也不同，内存较大时处理的效率较高。4结语本文在充分分析医疗保险信息系统的功能和目标的基础上，主要从技术的角度给出了医疗保险信息系统数据整合和挖掘的总体解决方案，并对医疗保险信息系统数据仓库的设计、数据整合方案以及数据挖掘的技术和应用进行了详细的分析和论述，特别是针对关联规则，提出了基于SQL的FP-Growth算法，并进行了数据挖掘实证研究。基于SQL的FP-Growth算法已经应用到数据挖掘处

28、理中，作为医疗保险信息系统的后台作业定时进行处理，发挥了较高的处理效率并提供了及时、准确的处理结果。虽然本文主要是对医疗保险信息系统的数据整合与数据挖掘技术进行论述，但是，医疗保险信息系统的数据整合与数据挖掘不是一个纯技术问题，单纯依赖于数据整合与数据挖掘并不能真正做好医疗保险各项业务的管理决策工作。因此医疗保险主管部门应根据自身的特点，从全面、系统的角度去分析和实施，才能确保医疗保险信息系统数据整合与数据挖掘的成功。参考文献1纪玉山，李晓林.对我国城镇职工社会医疗保险改革的再认识.经济视角，2006(5):38402王星，谢邦星，戴稳胜.数据挖掘在保险业中的应用.北京统计，2004(4):5

29、0513张劲松.保险公司数据挖掘技术应用探索.商场现代化(学术版)，2004(12):1091114刘明霞，任仕泉.医疗保险风险因素的相对风险度分析.现代预防医学，2004(2):1591615Charles Morgan.Customer Data lntegration:Realizing thePromise of Customer Relationship Management.http:/ Shang，Kai Uwe Sattler，lngolf Geist.SQL BasedFerquent Pattren Mining without Candidate.In Prceedingsof the 2004 ACM Symposium on Applied Computing.NicosiaCyprus，2004:618619趨趮

展开阅读全文