《医疗大数据解决方案(DOC66页)cwjp.doc》由会员分享,可在线阅读,更多相关《医疗大数据解决方案(DOC66页)cwjp.doc(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、医疗大数据医疗大数据解决方案与信息系统的耦合度为零的数据才是合格的大数据全国97.8万家医疗机构的信息系统基本上都是用关系数据库而建立的,然而要对关系数据库中的数据进行挖掘非常困难。大数据并不是小数据之和,关系数据库系统不适合处理大数据。发明专利技术(发明申请号201310495041.8)医学信息的结构化存贮方法非常适合处理医疗大数据。目 录医疗大数据解决方案1第1章 概要41.1 名词定义5第2章 医疗大数据面临的挑战72.1 医疗大数据与医院信息系统之间的具有本质的差异72.1.1 小问题放大万倍就会大的吓人92.2 医疗大数据面临八大难题102.3 国家大数据标准工程堪比“两弹一星”1
2、42.4 医疗行业的信息系统顶层设计为何难产152.5 大数据挖掘中的问题:大数据的关键不在于大而在于如何挖掘162.5.1 我国医疗行业每年产生多少数据162.5.2 挖掘关系数据库系统所产生的医疗数据非常困难172.5.3 仅患者与数据的对应关系就是一个大问题182.6 关系数据库理论的致命伤192.6.1 关系数据库中的数据在大数据环境中为何变成无意义的数据192.6.2 关系数据库系统是一种完全封闭的系统:外来数据无法入住222.6.3 关系数据库中的数据与数据系统密不可分222.6.4 关系数据库中的数据与数据结构密不可分232.6.5 关系数据库中的数据与应用程序密不可分232.6
3、.6 关系数据库中的数据一旦脱离相应的系统就成了无意义的数据242.6.7 关系数据库无法实现病历信息的结构化存贮242.6.8 关系数据库中的数据都是“方言”,大数据需要的是“普通话”242.7 关系数据库如何处理国家医疗大数据中数万个数据库、数千万张表252.8 大数据之梦十年后成真262.8.1 信息化社会由概念到比较成熟用了30多年时间272.8.2 千年虫问题的启示272.8.3 大数据工程远比千年虫问题复杂282.8.4 五年之内(2020年前)医疗大数据只是纸上谈兵292.9 必须开发新型的软件工具才能对医疗大数据进行高效挖掘29第3章 发明专利:医学信息的结构化存贮方法303.
4、1 在了解医学信息的结构化存贮方法时的注意事项313.2 医学信息的结构化存贮方法323.3 数据的完整性是大数据的根本383.3.1 大数据的策略:以适当的数据冗余而使数据易识别383.3.2 一个事物的数据403.3.3 事物分类403.3.4 关系数据库的缺陷:关系423.3.5 数据的可识别性463.3.6 数据的多样性483.3.7 元数据及国际元数据标准非常重要483.3.8 大数据的关键:让数据自己说话493.3.9 大数据的策略:用数据代替程序513.4 与信息系统的耦合度为零的数据才是合格的大数据523.5 医学信息的结构化存贮方法与关系数据库的对比553.6 应用医学信息的
5、结构化存贮方法的注意事项553.7 超大表化问题:分为多张表563.8 关系数据库中的二维表是数据不具独立性的一个根本原因563.9 “万能数据结构表”存放病历信息的例子563.10 医学信息的结构化存贮方法实现互联互通非常简单583.11 结构化录入病历信息的例子:症状的结构化58第4章 独立数据库在医疗大数据方面的优势614.1 大数据中最重要的就是查询614.2 超大表问题614.2.1 自动调整表的长度624.2.2 自动查询多张表624.3 用独立数据库实现国家医疗大数据的存贮处理634.3.1 独立数据库如何处理国家医疗大数据中数十万个数据库、数千万张表634.3.2 疾病、症状的
6、相关数据65第1章 概要关系数据库理论存在很多很严重的问题,例如,用关系数据库系统所设计出的信息系统都是孤岛型系统,难以实现系统之间的互联互通;在大数据时代,人们发现,对全国97.8万家医疗机构所产生的医疗数据进行挖掘非常困难,当前的大多数医疗信息系统都是用关系数据库系统而设计的。用关系数据库系统所设计出的信息系统之所以难以互联互通,孤岛问题严重,根本原因在于“异构数据”。医学信息的结构化存贮方法中的“万能数据结构表”可以存贮各种各样的数据,也可说用医学信息的结构化存贮方法所设计出的信息系统所产生的数据都是“同构”的,不存在“异构数据”的问题。关系数据库理论先天不足,不可能解决“异构数据”问题
7、。医院信息系统所处理的数据只是某家医院所产生的某些特定的数据(可称作小数据)。医疗大数据所要处理的数据是全国97.8万家医疗机构所拥有的数十万个医疗信息系统所产生的数据,这些数据存贮在数千万张表中,这些系统由不同的开发商所开发,各系统的数据结构各不相同。每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,整个医疗行业的信息孤岛问题更严重。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。不仅如此,数据种类的多样化也为数据标准的制定和应用带来了挑战。小数据的特点是数据的类型和数据都是有限的,在处理数据前能事
8、先确定数据的类型。而大数据的数据特点是 “多样性 (Variety)”,在处理数据时很难先事先确定数据的类型,甚至不能确定数据的类型。目前关系数据库在数据处理中占据统治地位,而关系数据库在处理数据时事先要确定数据的类型,因此,在处理数据类型不能事先确定的大数据时,关系数据库就遇到了难以逾越的障碍。医疗大数据与医院信息系统所产生的数据具有本质的差别。现有的各种信息系统所处理的数据都是小数据。目前人们只是认识到大数据重要性,大数据还只是处于概念阶段。大数据梦想将在10年后梦想成真,5年之内,难有突破性进展。国家医疗大数据所面临的最大难题:当前的医疗信息系统不能适应医疗大数据的实际需求,需要对现有的
9、信息系统进行彻底的改造才能适应大数据时代的潮流。然而,要彻底改造全国现的医疗信息系统,所花费的代价是非常高昂的!关键词:数据与系统的耦合度、万能数据结构表、独立数据库、医疗大数据、数据的独立性、数据的完整性、数据的可识别性、事物分类。联系人:樊梦真136 6086 7965QQ:2697792162697792161.1 名词定义l 数据与系统的耦合度:数据与系统的耦合度越高,数据对系统的依赖程度就越高。当数据对系统的依赖程度比较高时,数据一旦脱离了原有的系统就变成了无意义的数据。大数据的数据来源于成千上万家单位的系统,因此,大数居中的数据应该是与系统的耦合度为零的数据,否则就需要很多的应用程
10、度来解读数据,这会增加数据处理的难度、成本。l 万能数据结构表:由发明专利技术“医学信息的结构化存贮方法”在模仿大脑记忆、联想的基础上而所提出的一种新型数据结构,可以在同一张表中存贮各种各样的数据。l 独立数据库:由发明专利技术“医学信息的结构化存贮方法”而建立的数据库即可称为独立数据库。独立数据库与关系数据库有本质的差异。l 数据的独立性:数据的独立性是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而独立地表达出某种含义。关系数据库中的数据不具有独立性,需要借助于注释、数据结构、应用程序才能解读数据的含义。l 数
11、据的完整性:数据的完整生是由发明专利技术“医学信息的结构化存贮方法”所提出的概念,是指数据不信依靠数据库系统、不依靠数据结构、不依靠注释、不依靠应用程序而完整地表达出某种含义。关系数据库中的数据不具有完整性,需要借助于注释、数据结构、应用程序才能解读数据的含义。l 数据的可识别性:在班、组这样的小环境中可以用每个人的姓名而区分出每一个人,然而在全国范围内,由于人数太多,很多姓名都有重名现象,因此仅靠姓名就不能准确无误地识别出每一个人。大数据时代以前的关系数据库中的数据只是应用于某个机构内部,因此各个数据就容易识别,然而如果把关系数据库中的数据放到大数据环境中,那么这些数据就成了不可识别的数据。
12、在大数据时代,需要通过数据的独立性、数据的完整性而确保每一个数据都是可识别的。l 在医疗大数据中,各个医疗数据分别由各家医疗机构所产生、拥有。l 事物分类:事物分类是由发明专利技术“医学信息的结构化存贮方法”所提出的概念。大数据时代以前的信息系统的最终用户是通过应用程序而看到各种数据,最终用户并不直接与数据库中的数据打交道,数据库中的数据需要通过应用程序解读后最终用户才能读懂。在大数据时代,大数据中包含成千上万家机构的数据,因此,大数据中的每一个数据库是由哪家机构所产生,数据库中各表中所存贮的数据是什么等等都是非常重要的信息,只有搞清楚这些信息,才能正常解读各数据的真实含义。在“万能数据结构表
13、”中,“信息系统的名称、数据库的名称、表名”是以“事物分类”的形式存贮在表中,其目的是让数据具体独立性、完整性,以此确保各数据在大数据中具有可识别性。第2章 医疗大数据面临的挑战本章内容提要:大数据并不是小数据之和,大数据与小数据有本质的差异。关系数据库只适合于处理小数据而不适合处理大数据。用关系数据库来处理大数据时会遇到很多难以克服的困难。五年之内(2020年前)大数据难以取得根本性突破,大数据之梦十年之后才能梦想成真。维基百科关于大数据的定义也明确指出当前的主流软件工具不能高效地处理大数据,要高效处理大数据必须开发新的软件工具。目前的大多数信息系统所产生的数据都存贮在关系数据库系统中。关系
14、数据库中的数据的一大特点(或者说一大问题)就是“数据严重依赖于数据库系统及应用程序”,当关系数据库系统中的数据脱离了相应的数据库系统及应用程序后,这些数据基本上就成了难以阅读的无用数据。2.1 医疗大数据与医院信息系统之间的具有本质的差异如果把全国各家医院所产生的数据全部集中上传到国家医疗大数据中心,这些数据的数据量一定会非常庞大,这些数据能不能称为国家医疗大数据?按维基百科对大数据的定义:“大数据是指所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、处理的数据。”这些数据可以称为国家医疗大数据。维基百科的定义也明确地说明了把全国各家医院全部集中起来的“数据量规模巨大到无
15、法通过目前主流软件工具,在合理时间内达到获取、处理”。为什么不能处理呢?例如,患者就医时,医生非常关心患者的病史。医生能否从国家医疗大数据中心获得患者在全国任意一家医院就医时的所有病历呢?假设全国各家医院的所有信息系统所产生的数据都已全部集中在国家医疗大数据中心,而且医生具有获得这些数据的权限。截至2014年3月底,全国医疗卫生机构数达97.8万个,其中:医院2.5万个,基层医疗卫生机构91.8万个,专业公共卫生机构3.2万个,其他机构0.3万个。全国按2.5万家医院计算,一家医院按4个信息系统计算,全国共有10万个医院信息系统,这些信息系统所产生的数据存贮在数千万张表中。医疗大数据应该说是永
16、久有用的,可用来研究人类疾病的历史变化情况。因此,国家医疗大数据应是整个国家数年内、数十年内所产生的全部数据的总和,甚至需要存贮数百年、数千年。国家医疗大数据所涉及的信息量是一般的医院信息系统的数据量的数万倍、数十万倍以上。医生要想获得患者以往的病史数据,就必须从数据千万张表中查询患者的病史数据。了解关系数据库理论者都知道,如果说仅有表中的数据,没有相应的软件工具,那么,从数千万张表中查询数据,即使最优秀的程序员,在目前的技术条件下,一周的时间内肯定查不出来患者的所有病史数据。因为程序员在查询数据前,首先要搞清楚如下问题:1、 这些数据分别是哪家医院所产生的?2、 这些数据分别是什么样的数据库
17、系统产生的?3、 这些数据分别存贮在哪些表中?4、 各张表的结构是什么?5、 表中会含有大量的代码,各个代码的含义是什么?6、 同一数据库中会有多张表,这些表之间的关系是什么?7、 各张表中所存贮的是什么数据?数据的类型是什么?国家医疗大数据文件中含有数千万张表,一张表详细情况说明基本上要用一页复印的信息量来描述,共需数千万页复印纸才能描述清楚全部表的基本情况。面对全国97.8万家医疗机构,2万多家有一定规模的医院,数万个医院信息系统,数千万张表,程序员在一周的时间内肯定搞不清楚上述问题。从理论上而言,只要有数据,程序员可以查询到任何需要信息,然而由于国家医疗大数据的数据量太大,数据关系太复杂
18、,数据结构太多、数据类型太多、不标准的数据太多,结果是太难太难。处理小数据时并未感到关系数据库有什么不足之处,在大数据时代人们已认识到关系数据库系统不适合处理大数据。2.1.1 小问题放大万倍就会大的吓人国家医疗大数据并不是把全国各家医院所产生的数据全部集中在一起就可以称作是合格的医疗大数据。如果仅是把全国各家医院所产生的数据全部集中在一起,而没有处理这些数据的应用程序,那么,这些数据也没什么用处。目前不是没有大数据,而是有很多大数据,然而人们不能高效地对这些数据进行处理。到目前为止,还没有成功处理上万家医疗机构所产生的医疗大数据的成功案例。大数据比小数据大多少倍?目前没有明确的定义,应该说真
19、正的大数据要比小数据大一万倍以上,最少也应大一百倍以上。大数据的大表现在:一是数据量大(是小数据“万倍以上”),二是数据类型多(是小数据“万倍以上”),三是所涉及到的单位多(是小数据“万倍以上”),四是所涉及到的用户多种多样(是小数据“万倍以上”),五是对数据的需求多种多样而且不确定(是小数据“万倍以上”)。在处理大数据时,会有很多的“万倍以上”的问题。3岁小朋友都可以数清楚自已家里有几口人,然而全国有多少人?由于人数十分庞大,全国人口普查就成了一项十分艰巨的大工程。自有人类以来,还无人能够数百之百准确地数清楚全球在某段时间内的人数。大家都认为当今的计算机技术已非常先进,然而时至今日,全球、全
20、国的人口普查都做不到百分之百准确。我国历次人口普查都要花费大量的人力、物力。宇宙之中有多少个星球体?谁也数不清,因为整个宇宙实在是太大了,宇宙中的星球数量实在是太多了,谁也数不清,永远也数不清。事物的数量大到一定程度后一项非常简单的工作就会变成一项非常艰巨的大工程。小数据所处理的数据犹如小朋友数家里的人数,大数据所处理的数据犹如全国人口普查。大数据的特点:小数据中的小问题一旦放大万倍就会大的吓人!在大数据处理中,会遇到数量众多的小问题。当前的绝大多数信息系统都是用关系数据库系统而建立的。在设计数据库系统时,设计人员习惯于用代码来表示各种数据,例如一些设计人员人用数字“0”来代表女性、用“1”代
21、表男性),有的用“M”来代表男性、“F”来代表女性。全国各行各业拥有数千万个信息系统,其中的数千万张表中拥有人的性别这种字段。在当前的情况下,人们是用数据抽取的方法来而使性别这种字段中的数据全部转换为统一的、标准的数据,例如统一为“男”、“女”。要把全国数千万张表中的性别数据全部转换为统一的数据,就是一项非常艰巨的系统工程。要真正建立起国家医疗大数据,要解决很多个数量十分庞大的小问题。大数据一般比小数据大数万倍、数十万倍,小数据中的小问题一旦放大数万倍、数十万倍就会大的吓人!在小数据时代,人们所设计的信息系统只是用来处理某个机构、某个部门内部的某个局部问题进行统计、分析,一个信息系统中只有几张
22、表、几十张表。在大数据时代,人们更关注全国,甚至全球范围内的对所有事物进行统计、分析,涉及到数百万、数千万个信息系统、数亿张表。小数据是为机构内部的人员所使用,是从机构的角度看问题,而大数据而是从全国,甚至全球来考虑问题。对医疗行业而言,全国拥有近97.8万家医疗机构,数百万从业人员,为全国13亿人服务。目前商业智能所处理的还只是一家企业内部的数据,人们已感到对企业内部的数十个信息系统中的数据进行处理已非常困难,而大数据所要处理的是整个行业的数据,比商业智能复杂数万倍。l 大数据=价值大=困难大=问题大=代价大2.2 医疗大数据面临八大难题当前国内的各家医院的各种信息系统都是为了满足自己的需求
23、而开发的,可以比较好地满足各家医院自己的各种需求,并发挥出了重要的作用。然而,当人们从国家医疗大数据的角度来考虑问题时,就会发现要从全国的所有医疗机构的所有信息系统中挖掘出有价值的信息实在是大难了!主要有下述八大难题。1、 各自为政:各家医疗机构各自为政,都想要别人的的数据,都不希望自己的数据共享给他人。到目前为止,医疗数据都存贮在各家医疗机构内部,从各家医疗机构获得数据非常难。2、 数据不标准:医疗行业还未建立全国统一的、标准化、规范的数据,各家医院的医疗数据各不相同。数据不标准问题是影响大数据处理的一个重大问题,在大数据时代,各行各业的数据标准化工作是大数据的一项非常重要的基础工作,这项基
24、础工作搞不好,大数据挖掘工作不可能搞好。医疗行业的数据标准化工作也是一项工程量巨大的系统工程,需要大量的医务人员共同参与才能完成。国内还未做好这项基础工作。数据不标准、不规范,会严重影响数据挖掘的结果。【数据不一致可以有多种情况,如数据类型不一致,随意缩写造成的不一致,计量单位不一致等。当从多个不同的数据源整合数据时,由于定义的不同,更容易产生数据不一致问题。在不同的数据源中,相同类型的信息可能表现为不同的格式。例如,电话号码通常定义为字符型数据,但在有些数据源中可能将定义数值型数据,因此应将其标准化。典型的例子是字段“性别”,一些人用数字“0”、“1”、“2”来表示“不清”、“男”、“女”。
25、而在其它数据库中,可能直接用“不清”、“男”、“女”来描述。另一种情况是字段值在不同的数据源中不一致,如“出生地”可能分别使用“上海”、“沪”、“上海市”、“沪市”、“SHANGHAI”、“SH”等表示上海市出生的人。解决这一问题首先应该进行标准化,然后根据标准逐步消除数据不一致的问题。】3、 业务及业务流程不标准:要对全国的某个行业的大数据进行分析统一,行业内的业务及业务流程的标准化工作也是一项非常重要的工作,否则,各个机构的数据也就会百花齐放、各不相同,不利于分析统计。4、 数据多样性(Variety)【数据结构不标准、不统一】:全国有97.8万家医疗机构,这些机构的全部信息系统有数十万个
26、,这些系统由不同的开发商所开发,各系统的数据结构不尽相同。【每家医院的信息化工作都涉及几十个厂家,每个厂家的数据、标准、采集、存储都不一样。因此,即便是在一家医院,都会出现很多孤岛,更别说整个医疗行业了。各家医院信息系统的标准、接口都不同,这成为利用率低、共享难的原因之一。】5、 数据与数据库系统、应用系统密切不可分:关系数据库系统中的每一个数据都要先定义数据结构才能入住数据库。信息系统的最终用户所看到的数据都需要应用程序的解读,最终用户看不懂关系数据库中的数据。 6、 不能实现医学信息的结构化存贮:医学信息非常复杂,医务人员习惯于用自然语言编写各种医学档案,例如医生都是用自然语言编写病历。然
27、而,计算机很笨,不能理解自然语言,因此只有把医学信息结构化之后进行存贮,才能用计算机进行处理。而当前的众多医学信息都未能很好地进行结构化存贮。7、 信息孤岛:各家医院的各个信息系统不能实现全国互联互通。8、 老系统升级改造难题:当前的信息系统都是小数据系统,不适应大数据时代的需求,然而要对现有的信息系统进行全面改造也是非常困难的,其代价也是非常高昂的。【为什么要升级改造?因为当前的各家医院的信息系统所产生的数据各不相同,数据不标准、不规范。要对大数据进行处理,必须确保全国各家医疗机构的信息系统所产生的数据是统一的、标准的、规范的医学标准数据。只有这样,才能高效处理大数据。】从理论上而言,医疗大
28、数据挖掘很简单,只要懂关系数据库,基本上就能对医疗大数据进行挖掘。然而,要想对全国近百万个医疗机构、数十万个信息系统的全部数据进行高效地挖掘,所面临的挑战是非常严重的。如何解决八大难题?1、 各自为政:这个问题必须国家卫生和计划生育委员会以行政命令的方式来解决,强制要求各医疗单位实时地把各种医疗信息上传到国家医疗大数据中心。若没有强制的行政命令,不可能建立起合格的国家医疗大数据。2、 数据不标准难题:此难题涉及到的数据量太大、工程量太大。国家卫计委及很多人士虽说早就注意到此问题的存在,然而直到目前还未从根本上解决医疗行业的数据标准化问题。此问题不从根本上解决,那么医疗大数据的挖掘就等于说大话。
29、医疗行业数据标准化工作是大数据挖掘的基础工作。此问题应该由国家卫计委组织业内外力量来解决,解决此问题需要3至5年的时间。有了国家医疗大数据标准之后,还需要用标准的医疗数据去代替现有的不标准的医疗数据,而此项工作的工作量也是非常巨大的。标准化工作是不赚钱的基础性工作,商业机构没有从事这项工作的动力,应该由国家卫计委来解决。3、 业务、业务流程不标准:目前全国各医疗机构的业务及业务流程并不标准,因此,各医疗机构所产生的数据也各不一样。要建立国家医疗大数据,就必须道先对全国医疗机构的业务流程进行标准化处理,这也是一项工程量巨大的基础性系统工程。这项工作也应该由国家卫计委来解决。此项工作最快需要三至五
30、年的时间才能完成。l 只有解决了上述三项基础性问题,才能够建立起国家医疗大数据这个大厦的坚实地基,否则医疗大数据只能是空中楼阁。由于上述三个因素牵涉到全国各个医疗机构的方方面面,非常复杂,十年之内很难看到真正的国家医疗大数据的曙光。下述4个问题属于技术问题,关系数据库理论解决不了这4个问题,可由发明专利技术“医学信息的结构化存贮方法”从技术上加以彻底解决:4、 数据多样性(Variety)【数据结构不标准、不统一】:目前关系数据库占据统治地位,绝大多数信息系统都是用关系数据库而建立的。医院的各种信息系统中,多数也是用关系数据库系统而建立。例如,目前国内医疗行业的HIS系统是由多个开发商所开发,
31、各家开发商所用的数据库系统不一样,所用的数据结构结构及数据类型也不一样。因此,如果要对全国各家医疗机构的HIS系统中的数据进行分析,那么首先就要把各种数据全部转换为同一的数据结构,然后才能对数据进行分析统计。然而要对全国近百万个医疗机构的数十万个、数百万个信息系统中的数据进行转换,也是一项工程量巨大的系统工程。另一外很重要的问题是,所有这些信息系统中的数据要转换为哪一种统一的、标准的数据结构,也是需要国家卫计委制定相应的标准、规范。5、 数据与数据库系统、应用系统密不可分。6、 不能实现医学信息的结构化存贮:医学信息非常复杂,用关系数据库不能实现病历信息的结构化存贮。有人用XML实现病历信息的
32、结构化存贮,然而XML只适合处于少量数据,不适合对全国的病历信息的处理。7、 信息孤岛。8、 信息系统改造:现有的医疗信息系统就犹如广州的城中村,广州的城中村虽有一定的作用,然而城中村与广州这样的国际化大都市非常不协调。改造广州城中村的最佳方案就是推倒重建,局部的修补是没用的。然而要全部推倒重建,所花费的资金是非常巨大的。2.3 国家大数据标准工程堪比“两弹一星”大数据工程,标准先行。国家大数据标准的工程的工程量要比“两弹一星”的工程量大。国家大数据标准涉及到每一个行业,也涉及到各种各样的业务。大数据标准涉及数据的标准化、数据结构的标准化、业务的标准化、业务流程的标准化。大数据标准化工作完成之
33、后还要对现有的信息系统进行改造,这种改造的工程量及代价也是非常高昂的。目前的信息系统所产生的数据不适应大数据的需求。历史对秦始皇统一文字、统一度量衡、统一货币的评价非常高:功惠千秋。大数据所面临的问题也犹如秦始皇时代所面临的“文字不统一、度量衡不统一、货币不统一”问题。因此,要解决大数据所面临的问题,也需要由秦国、秦始皇那样强大的机构、领袖人物以行政命令的形式强制推行,才能从根本上解决问题。大数据八大难题中的五大难题(各自为政、数据不标准、业务流程不标准、数据多样性(Variety)【数据结构不标准、不统一】、信息孤岛)与秦始皇曾经遇到的问题有些类似。为解决千年虫问题,全球花费了超千亿美元的资
34、金。彻底砸烂小数据而建立大数据新环境的代价远远超过千年虫问题。千年虫只是解决一个时间数据的问题,而彻底砸烂小数据建立大数据新环境则涉及到几乎所有信息系统的所有数据!小数据:只要能满足自己需求,能解决自己的问题即可。大数据:不只是满足自己的需求、解决自己的问题,还要考虑他人的需求。重点是如何让他人能够找到所需要的数据。要让他人、大家找到所需要的数据,最重要的是大家都要遵循相同的标准,大家都讲普通话,而不是方言,这犹如泰始皇统一六国后的“书同文”的标准化改革。当前在处理大数据时的首要工作就是数据抽取(ETL: “Extract”、“ Transform” 、“Load”,“抽取”、“转换”、“装载
35、”),其实数据抽取工作也类似“秦始皇的书同文”,只是数据抽取并未能真正象秦始那样从根本上解决书同文问题。要使大数据真正做到“书同文”,需要象秦始皇那样从根本上解决问题。而真正实现大数据“书同文”时,就不再需要数据抽取。与当前人们所提到的大数据相比,关系数据库所处理的数据则是小数据。大数据中的数据是数万家、数十万家以上的各中机构中各种数据的总和。而关系数据库所处理的小数据则是一家机构或几家机构中的部分数据。当我们面对数十万个、数百万个以上的信息系统中的数据(大数据)时,就会发现,我们面临很多挑战:“(维基百科对大数据的定义)无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”。也就说明用
36、关系数据库系统已“无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理”大数据。在小数据时代,信息系统的用户是通过应用程序而查到自己所需要的数据,而信息系统对关系数据库中的数据进行处理后而以用户能够理解的形式展现给用户。然而,在大数据时代,这种方法行不通了。因为在小数据时代,我们所要处理的数据是有限的、可确定的,而在大数据时代,我们所要处理的数据是无限的,不确定的数据。秦始皇之所以能使“书同文”成为现实,是因为他拥有至高无上的权威;“两弹一星”之所以能成功,关键在于“两弹一星”关系到国家的生死存亡,国家大力支持。大数据的成败与国家的支持是分不开的。2.4 医疗行业的信息系统顶层设计为何难
37、产国家卫生和计划生育委员会几年前就注意到了医疗行业信息系统顶层设计的重要性,并希望从根本上解决此问题,但至今未能从根本上实现医疗行业信息系统的顶层设计。为什么要进行顶层设计?因为当前的各种医院信息系统存在严重的问题,信息孤岛问题严重,不能互联互通。顶层设计建立在医疗数据标准化、医疗业务流程标准化的基础之上。而如今医疗数据标准化、医疗业务流程标准化这两个基础工作还未做好,因此顶层设计就不可能有结果。技术上的原因:关系数据库理论的先天不足。客观原因:问题非常复杂、牵涉面太广、所需资金非常巨大。顶层设计非常难,比顶层设计更难的是有了顶层设计之后再对全国的医疗信息系统进行全面更新换代。2.5 大数据挖
38、掘中的问题:大数据的关键不在于大而在于如何挖掘如果把全国97.8万个医疗卫生机构所产生的数据全部存贮到国家医疗大数据中心,这些数据可以称作是“国家医疗大数据”,然而这样的数据并不能称作是真正合格的“国家医疗大数据”,因为,对这样的数据的挖掘非常困难,从这些数据中挖掘出有用数据的代价非常高,犹如沙里淘金,大海捞针。大数据不是小数据之和。大数据的关键不在于大,而在于挖掘。只有可以让大家高效挖掘、任意挖掘的大数据才是真正合格的大数据。2.5.1 我国医疗行业每年产生多少数据国家医疗大数据的概况:截至2014年3月底,全国医疗卫生机构数达97.8万个,其中:医院2.5万个,基层医疗卫生机构91.8万个
39、,专业公共卫生机构3.2万个,其他机构0.3万个。仅按全国拥有2.5万家医院、每家医院4个信息系统计算,全国约有10万个以上的医院信息系统,每个信息系统按20张表估算,全国共拥有200百万张表。除了存贮在关系数据库系统中的数据外,还有其它类型的数据:XML、音像、文本等。国家医疗大数据的数据量估算:南京军区南京总医院目前拥有5台存储设备,2台专用于PACS,其中HIS、LIS、EMR等数据3T,病案缩微数据12T,PACS数据120T左右,每个月的数据增长为2T左右,每年产生的数据量:24T/年。国家医疗大数据的数据量估算=2.5万家(未计小医疗机构的数据)*24T/年=60万T/年。国家医疗
40、大数据的数据量估算:6万T/年至100万T/年。2.5.2 挖掘关系数据库系统所产生的医疗数据非常困难如果全国97.8万家医疗机构以镜像的方式把所有数据都上传到国家医疗大数据中心,那么该如何对这些数据进行挖掘?全国共有97.8万家医疗机构,这些医疗机构所拥有的信息系统有10万个以上,这些医疗机构所拥有的数据库有10万个以上,这些数据库中的表有200万张以上。这些医疗机构的数据存贮在数十万个以上的文件夹中(存贮XML、音像、文本等数据)。患者病史可能是患者自出生以来的所有情况,病史数据可能存贮在几十年的数据中,并不仅是一年的数据中。当前的大多数医疗数据都是存贮在关系数据库中,关系数据库中的数据与
41、数据库系统密切相关、与数据结构密切相关、与应用程序密切相关、数据不标准。如果只是以镜像的方式把全国97.8万家医疗机构的数据全部上传到国家医疗大数据中心,要从这些数据中挖掘数据,也是非常困难的。要从国家医疗大数据中查询患者病历数据,必要首先搞清楚如下情况:l 10万个以上的数据库各用什么数据库系统?l 10万个以上的数据库的数据存贮在哪里?IP?如何访问数据库(帐号)?l 100万张以上的表中的每张表的数据结构l 100万张以上的表中各表之间的关系l 100万张以上的表中的各个数据代码的含义l 10万个以上的文件夹中存贮什么样的数据基础医疗数据大多存在于HIS、LIS、PACS、EMR、手术麻
42、醉、体检、心电等多个子系统中。各系统来源于不同的生产厂商,数据存放在不同的数据库,数据多而散,数据库的设计缺乏标准化,不同数据库中的数据靠患者主索引等进行关联,关联关系相当复杂。各自厂家研发人员除了对自家系统的数据结构非常了解之外,缺乏对其他系统数据结构的了解,整体数据分析能力较差。专业做数据分析及整合的公司,缺乏对医院实际操作流程的深入了解,导致对数据流向及关联关系的分析不够准确,且很难准确的拿到各子系统的基础数据,最终未必能做到数据全面、准确。2.5.3 仅患者与数据的对应关系就是一个大问题如果说要从国家医疗大数据中查询患者影像数据,那么,该如何实现?在当前的医疗信息系统中,关于患者的编码
43、并不是唯一的,也不是全国统一的。要查询某个患者的医疗数据,最理想的查询方式就是以患者的身份证号作为查询条件而查询相关数据。由于目前国内的各种医疗信息系统中的各个表中并不一定拥有患者身份证这一字段,从而使查询变得非常繁琐。例如:下面的表中的数据是一个PACS系统中的数据。此表中并没有包含可以直接识别患者身份的数据。因为由下表中的“姓名”及“门诊及住院号”并不能准确地识别出是哪一个患者。国内同名的人非常多,仅由姓名查义患者的数据是不行的。“门诊及住院号”只是各家医院自己的编号,也不能把“门诊及住院号”作为查询条件。在上面的PACS系统表中未包含患者身份证数据。因此,需要从HIS系统中根据患者身份证
44、号而查出患者的“门诊或住院号”,再根据“门诊或住院号”而从PACS系统表中查出PACS影像数据。“患者与数据的对应关系”这样的问题其实是大数据中的一个非常突出的问题。为了查询的方便,一定要把数据的最主要的特征在数据中表现出来。但关系数据库理论未考虑此问题。在大数据挖掘中,仅是确定患者的身份就是一项艰巨的工程。对小数据而言,程序员知道相关的数据存贮在哪个表中,但在大数据环境中,程序员不知道想要查询的数据存贮在哪里。2.6 关系数据库理论的致命伤关系数据库系统只适合于处理小数据,而不适合处理大数据,其根本原因在于关系数据库理论的先天不足。2.6.1 关系数据库中的数据在大数据环境中为何变成无意义的
45、数据如果在国家医疗大数据中心查询到下表的数据,谁能看懂?该表中的数据是某家医院的信息系统中的关系数据库中的数据,普通人看不懂,医生也只能靠猜测才能猜出部分内容。下面的两张表中的数据也是关系数据库中的数据,这两张表中的数据也是普通人难以看懂的:IDXMXBNLTZSG1张三男5672180IDXMXBZYFXYFQTFY2146张三男5672180 上面两表中的数据的实际含义如下:ID姓名性别所龄体重身高1张三男5672180ID姓名性别中药费西药费其它费用2146张三男5672180下表是用发明专利技术“医学信息的结构化存贮方法”而设计的表,该表中的数据无论是谁,只要懂汉语,就可以看懂表中内容
46、:ID事物代号事物特征事物特征值超长特征值单位附件时间100280事物分类体育管理系统2014.3.2101280事物分类教练信息2014.3.2102280事物分类教练基本情况2014.3.2103280身份证号XXXXXXXXXX2014.3.2105280姓名张三2014.3.2106280性别男2014.3.2107280年龄562014.3.2108280体重72KG2014.3.2109280身高180CM2014.3.211001280事物分类病历2014.5.311011280事物分类住院病历2014.5.311021280事物分类医疗费用2014.5.311031280身份证号XXXXXXXXXX2014.5.311041280住院号XXXXXXXXXX2014.5.311051280姓名张三2014.5.311061280性别男2014.5.311071280中药费56元2014.5.311081280西药费72元2014.5.311091280其它费用180元2014.5.3相对大数据