《分级诊疗大数据分析平台解决方案.docx》由会员分享,可在线阅读,更多相关《分级诊疗大数据分析平台解决方案.docx(121页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、分级诊疗大数据分析平台解决方案1 .背景介绍根据实际情况编制2 .分级诊疗大数据分析平台愿景形成充分发挥大数据技术的,针对医疗医药行业的,能充分适应 医疗卫生信息特征的大数据分析应用支撑平台,通过大数据分析,达 到发现知识、发现规律、预测未来,将医疗卫生行业推进进入大数据 时代提供技术可行性。理、预测长期和短期的战略发展方向、库存管理等药品供应链管理系 统高效运转所需要的功能。另外,以省直辖市为单位的医药集采平台所形成的集采药品目录 数据、价格数据,以及采购计划数据、实际执行数据和订单执行情况 数据都可以采用大数据分析用来支持进行药品生产销售、库存、配送 和物流的流程优化和预测。1.1.8 药
2、品库存分析医药供应链环境下的药品库存管理相对传统的药品库存管理出 现新的问题,这些问题主要表现在医药企业从单一医药企业经营转变 到供应链各节点企业药品库存管理的系统的协调性、集成性问题。药品库存问题主要表现在以下方面:1 .从药品原料、半成品到成品生产企业、下游批发零售企业、 医疗机构及最终消费者,信息条块分割,信息系统落后及系统标准不 一致不能相互互联及共享,商品编码体系出现“万码奔腾”局面,造 成重复劳动,终端数据不能快速传到到上游企业,各节点企业没有供 应链的整体观念,导致库存控制决策处于各自的分散状态。2 .在供应链上的各企业对用户服务的理解与定义不恰当,没有 从最终的消费者的需求脉动
3、上去理解用户服务,而是停留在供应双方 的利益分配及服务上,所以药价虚高、消费者得不到满意的服务。在 整个营销方式上难以刺激消费者的需求,有的甚至引起药品的安全问 题。尤其在中药的片剂上,医药企业为采购廉价的原材料进行生产, 从而降低了药品的疗效及用药的安全性。医疗机构的处方药在医生的 职业道德还没有相应的法律制约下,大处方是常见现象,这样药品滞 留在最终的消费者手上,浪费或是过期变质,或是改作他人使用,都 会导致一种不准确的信息传导。3 .当前药企的营销代理机制,代理商为获取代理权及逐利行为, 经常出现“串货”行为,法律上也没有相应的制约措施,单个企业的 内部控制常常不能取得满意效果,不准确的
4、交货状态数据向上游传 导,导致生产决策,库存决策错误。4 .各节点企业的低效率的信息传递系统,目前数据主要来自从 销售人员终端向上游的企业的集成,数据分散、数据延迟而导致供应 链上各节点企业的库存决策错误。有的代理商为完成年度的营销任 务,不按需求来给下游增加库存,上游企业按虚增的信息进行生产, 因此造成恶性循环。药品库存控制策略简单化,不能适应企业的供应 链的发展。5 .各个节点企业从产品设计到产品生产、物流运输等各流程缺 乏合作与协调性,也没有考虑到产品设计对供应链上药品库存的影 响。药品包装上规格繁多,各个企业自成体系,没有从整个供应链的 角度去考虑,尤其在商业流通上的“快批”业态的出现
5、,给上游在产 品设计上提出更高要求。下游医药企业药品零库存的理念使上游制造 医药企业承担需求不确定性造成的损失,承担降价风险,甚至成为供 应链整合的牺牲品,彼此的协调性,合作的框架协议需要从供应链的 角度去探讨。针对当前药品库存管理面临的这些主要问题。给药品库存管理提 出更高的要求,需要从供应链的战略全局上,整体上,信息共享上去 下手,探索新竞争环境下的库存模式。(一)供应商管理库存模式:VMI是一种在用户和供应链之间的合 作性策略,以对双方来说的都是最低的成本优化产品的可得性,在一 个相互同意的目标框架下由供应商管理库存,这样的目标框架被经常 性的监督和修正,以产生一种连续改进的环境。(二)
6、联合药品库存管理模式:供应链上各个环节的医药企业通过 信息技术可以实现信息和资源的共享和相互渗透,达到优势互补的目 的,从而能更有效地向市场提供产品和服务、增强市场竞争实力。对 于一个制造型的医药企业而言,如何设置和维持一个合理的药品库存 水平,以平衡存货不足带来的短缺风险和损失、以及药品库存过多所 增加仓储成本和资金成本则成为一个医药企业必须解决的问题。JMI 的有效实施既加强了医药企业间的联系与合作,又保证了这种独特的 由药品库存管理而带来的医药企业间的合作模式不会轻易地被竞争 者模仿,为医药企业带来竞争优势。(三)多级药品库存优化与控制模式:要想实现供应链全局性的优 化与控制,则必须采用
7、多级药品库存优化与控制方法。多级药品库存 是在单级药品库存的优化与控制的基础上形成的。控制方法有两种: 一种是非中心化(分布式)策略,另一种是中心化(集中式)策略。中心化的控制策略。中心化的控制策略是将控制中心放在核 心医药企业上,由核心医药企业对供应链系统的药品库存进行控制, 协调上游与下游医药企业的药品库存活动。这样核心医药企业也就成 了供应链的数据中心(数据仓库),担负着数据的集成,协调功能。非中心化的控制策略。非中心化策略是各个药品库存点独立地 采取各自的药品库存策略,这种策略在管理上比较简单,但是并不能 保证产生的整体的供应链优化,如果信息的共享度低,多数情况产生 的是次优的结果,因
8、此非中心化策略需要更多的信息共享,有利于发 挥医药企业自己独立的自主性和灵活机动性。(四)战略药品库存控制模式:从传统的以物流控制为目的的药品 库存管理向以过程控制为目的的药品库存管理的转变是药品库存管 理思维的变革。基于过程控制的药品库存管理将是全面质量管理、业 务流程再造、工作流技术、物流技术的集成。这种新的药品库存管理 思想对医药企业的组织行为产生重要影响,组织结构将更加面向过 程。供应链是多个组织的联合,通过有效的过程管理可以减少乃至消 除药品库存。(五)推动式/牵引式结合的药品库存管理模式:在压缩多阶响应 周期的供应链管理模式下,不仅仅要按需生产,更重要的是要能够对 市场的需求做出快
9、速反应。快速满足市场需求,只简单地采用推动式 运行机制在实际过程当中是不能满足需求的,所以才用推动式/牵引 式相结合的运行机制,并建立相应的药品库存管理的体系。上游医药 企业可以按照推动式运行机制进行采购、生产和原料补充等业务,基 本上属于MTS(Make To Stock)模式,下游医药企业以客户订单为驱动, 按照牵引式运行机制组织生产,属于MTO(MakeToOrder)模式。这样 的话,供应链的上游可以完成所需要半成品生产,一旦客户订单到达, 这也可以说就是在整个供应链运作过程中运用延迟技术。比如针剂类 的药品采用才模式比较合适,一方面可以保证生产线的规模效益,一 方面保证下游链的需求。
10、医院药品库存管理寻找控制药品成本的方法途径,从而优化成本 管理,减少不必要的消耗及浪费;有效地提高医院经济效益和社会效 益,为医院日后的进一步发展奠定良好的基础。药品库存和供应之间 始终是一对矛盾,药房必须不间断地为病人提供充足的药品和相关服 务,同时又必须避免库存费用的过分增加。库存管理在工作特性上具 有医院药学的专业性、药政法规的职能性和药品流通的商品性。1.1.9 药品质量偏差分析药品生产质量:生产环境、生产工艺、生产设备维护等质量分析。 药品经营质量:药品购销渠道、运输设备环境(温湿度控制)、碰 撞震动颠簸等质量分析。药品库存质量:仓储温湿度控制、码垛堆压挤压、破损变形等质 量分析。药
11、品本身质量:是否过期、成分异常、标注缺失(产品码、生产 码、监督码、有效期)等质量分析。1.1.10 药品不良反应&药品群体不良事件分析在相关事件发生后,药品生产企业将开展调查,掌握药品不良反 应或药品群体不良事件的发生、药品使用、患者诊治以及药品生产、 储存、流通、既往类似不良事件等情况,分级诊疗大数据分析平台将提供以下分析:药品自身范围分析,涉及生产批次、流通范围等;药品影响范围分析,包括涉及的区域、人员、采取的措施等;8.7 医疗健康检验检测分析(基于电子健康档案EHR)暂缺8.7.1 生理信号检测分析通过采集的原始生理信号数据,如心电图、脉搏波、血压值,使 用多尺度的数学形态学方法对生
12、理信号进行降噪滤波,然后通过积分 增加QRS复合波的信号,最后通过选择合适的阈值得到最终的QRS 复合波的检测结果。通过建立数据挖掘模型,提取疾病的高风险相关 因素,进行健康预警提示提醒。8.7.2 医学影像图像分析暂缺8.7.3 DNA检测和DNA序列分析暂缺8.7.4 重要人体征数据分析个人的重要体征数据,如心跳、体温、血压、血氧饱和度、运动 量。8.7.5 远程自助健康医疗检测分析暂缺8.8 医疗安全风险分析(基于电子病历EMR)暂缺8.8.1 医疗安全分析暂缺8.8.2 医疗风险分析暂缺8.8.3 假药、过期药、成分异常药的使用分析暂缺8.8.4 医疗事故诱因分析暂缺8.8.5 医疗安
13、全风险统计分析暂缺8.9 医疗卫生资源分析(基于政府的医疗卫生资源数据)暂缺8.9.1 医生护理人员分析暂缺8.9.2 医院床位分析暂缺8.9.3 医疗检测检验能力分析暂缺8.9.4 医疗卫生资源需求分析暂缺8.9.5 医疗卫生资源匹配度分析暂缺8.9.6 医疗卫生资源对比分析暂缺8.10 医疗卫生效果分析(基于电子健康档案HER和医疗卫生资源数 据)暂缺8.10.1 医疗卫生满意度分析暂缺8.10.2 医疗卫生问题诱因分析暂缺8.10.3 医疗卫生规划符合度分析暂缺9.关键核心技术和算法众多海量医药医疗数据为大数据管理与处理平台提出了诸多技 术挑战。第一,由于数据是不断累积的,平台需具备高可
14、扩展性;第 二,存储层应适应不同的存取访问需求.实时应用如医院的挂号和收 费系统等,主要涉及小量数据的读取与写入,要求后端存储能够快速 读写;复杂应用如医疗历史数据挖掘等,涉及大量数据的读取,要求 后端存储实现高吞吐量读取;第三,由于医疗数据关乎人的生命,需 要保证平台的高容错与高可用性,能够应对常态化的出错问题。9.1 大数据分析能力大数据分析能力体现在五个基本方面: 大数据可视化分析能力大数据分析的使用者有大数据分析专家,同时还有普通用户,二 者对于大数据分析最基本的要求就是可视化分析。 大数据挖掘发现能力大数据分析的理论核心就是数据挖掘算法,被全世界统计学家所 公认的各种统计方法才能深入
15、数据内部,更快速的处理大数据,挖掘 出公认的价值;如果一个算法得花上好几年才能得出结论,那大数据 的价值就减弱了。 大数据预测趋势能力大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。大数据语义引擎能力大数据分析广泛应用于网络数据挖掘,可从用户的搜索关键词、 标签关键词、或其他输入语义,分析,判断用户需求。大数据分析离不开数据质量和数据管理,高质量的数据和有效的 数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析 结果的真实和有价值。9.2 大数据分析技术数据采集:ETL工具负责将分布的、异构数
16、据源中的数据如关 系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、 集成,最后加载到数据仓库或数据集市中,成为联机分析处理、 数据挖掘的基础。 数据存取:关系数据库、NOSQL、SQL等。 基础架构:云存储、分布式文件存储等。 数据处理:自然语言处理技术、人工智能等统计分析:假设检验、显著性检验、差异分析、相关分析、T 检验、方差分析、卡方分析、偏相关分析、距离分析、回归分 析、简单回归分析、多元回归分析、逐步回归、回归预测与残 差分析、logistic回归分析、曲线估计、因子分析、聚类分析、 主成分分析、因子分析、快速聚类法与聚类法、判别分析、对3.分级诊疗大数据分析平台定位分级诊疗
17、大数据分析平台以医疗卫生行业的整体数据架构(数据 模型、数据构成、数据关系)为基础和标准,以对应的医疗卫生业务 数据为输入,通过大数据技术,形成针对医疗卫生行业中不同机构、 角色和业务活动的智能化应用,因此分级诊疗大数据分析平台不是代 替已有医疗卫生信息化系统,而是在多个方面强化已有医疗卫生信息 化系统,包括任意查询、即兴分析、业务增强、规则约束、预测未来、 发现知识,并提供互动性、及时性、预知性、洞察性,从而达到实现 智慧医疗的目标。3.1 解决的问题当前医疗卫生信息化建设的主要问题是各个区域内不同医疗机 构中患者的基础信息和各种临床信息资源分散、重复、孤立,导致有 效信息闲置、信息重复或不
18、一致,很难得到有效利用。通过分级诊疗大数据分析平台实现国家医疗卫生信息化规划中 “4631-2的三大基础数据库,即电子健康档案数据库、电子病历数 据库和全员人口个案数据库的应用落地;通过分级诊疗大数据分析平台实现智慧医疗的核心部分,即医疗 卫生服务体系的智能化,使医疗卫生的各种应用提升水平;通过分级诊疗大数据分析平台为“看病难、看病贵”的解决提供 科学定量判断依据、对比分析依据和分级诊疗大数据分析平台效果评 价依据;应分析、多元对应分析(最优尺度分析)、bootstrap技术等。 数据挖掘:分类、估计、预测、相关性分组或关联规则、聚类、 描述和可视化、复杂数据类型(Text, Web ,图形图
19、像,视频, 音频等)挖掘。 模型预测:预测模型、机器学习、建模仿真。 结果呈现:云计算、标签云、关系图等。9.3 大数据存储技术和系统在数据存储系统体系结构方面,以大量廉价服务器组成无共享 (shared-nothing)集群的方式逐渐成为主流。这种体系结构易于实 现高可用、高性能、渐进可扩展的存储系统,并且由于存储资源与计 算资源紧密耦合,在扩充存储容量的同时,计算能力也能够同步增强, 能够避免存得下,算不出的问题。在软件方面,文件存储是最基 本的数据存储方式。文件存储的优点是访问接口简单,文件格式可 以由使用者灵活定义,因此文件存储往往作为更高级的数据管理系统 的底层存储服务。目前能够存储
20、超大规模数据的文件存储系统包括 Lustre、Google file system (GFS) Hadoop distributed file system (HDFS)以及Amazon S3等。它们的共同特点是基于无共享架构、能 够管理数百乃至数千存储节点、自动维护数据冗余或副本、高并发顺 序访问吞吐率等。9.4 大数据业务模型建模在更高级的数据管理方面,最重要的数据管理系统是以关系数据 模型为基础的关系数据库系统(RDBMS) o关系数据模型最主要的优点 之一是具有与一阶逻辑体系同等强大的知识表达能力,这意味着现实 中的许多查询都可以用关系代数描述。此外,使用关系数据模型, 用户能够方便地
21、为各种对象以及对象之间的联系设计逻辑模型而无 需了解数据库的实现细节。因此,在21世纪之前,关系数据库被 广泛应用于各类信息系统,如医院常用的电子病历系统、临床信息系 统、用药管理系统、ICU监护系统等。关系数据模型虽然具有诸多优 点,但要实现一个高效率的关系数据库系统却并不容易。这主要是 因为:(1)为保证关系数据模型功能的完整性,很多数据操作难以进行 专门优化;(2)为保证事务处理的原子性、一致性、分离性和持久性,带来 了大量的额外开销。因此在管理大数据时,以 Oracle database、SQL server MySQL 为代表的传统关系数据库常常成为性能瓶颈。这些系统的低效不仅 表现
22、为查询速度慢,而且数据加载与建立索引的过程也十分漫长。由 于原始数据和数据处理的中间结果大部分是非结构化(unstructured) 数据或半结构化(semi-structured)数据,如网页、日志、文档、图 片、视频等,传统关系数据库被认为不适用于存储这类数据,因此需 要使用其他类型的数据管理系统。现有的针对此类数据的管理系统 被笼统地称为NoSQL数据库,按照数据模型分类,可以分为以下3 种(按照数据模型由简单至复杂的顺序排列)。键-值存储系统:键-值(key-value)数据模型将数据表示为键与 值的映射关系。所有的键|值存储系统都支持的基本操作是给定一个 键,查找其对应的值。当键上可
23、以定义比较关系时,有些系统也支 持键上的范围查询(range query)o键-值模型功能简单和易于实现, 键-值存储系统一般具有极佳的可扩展能力和访问性能,因此多用于 支持高并发的Web服务查询或作为其他存储系统的高性能缓存。目 前主流的分布式键|值存储系统包括Amazon dynamo Redis MemcacheDB 等。列族存储系统:列族(column-family)数据模型是在键-值模型 基础上,将值定义为列族的集合,每个列族可以包含多个相关属性列。 与键-值存储系统相比,列族存储系统支持的基本操作也是按值查找 和范围查询,但允许用户指定返回的结果中所需包含的属性列,因此 更加灵活易
24、用,并且在仅用到小部分属性列的情况下查询性能更好。 近10年来,最具代表性的大规模列族存储系统是Google bigtable,类 似的系统包括HBase和Hypertable等。文档存储系统:文档(document-oriented)数据模型也可视为 键-值模型的扩展,与列族模型不同的是它将值定义为类似广义表的 数据结构。从抽象的角度看,列族模型是一种特殊的文档模型。文 档存储系统除了支持基于键的查询,一般还允许用户指定值上的过滤 条件(取决于具体系统实现),但更为灵活的数据结构需要更多空间存 储以及更长时间解析,其查询速度通常比列族存储系统慢。目前主流 的文档存储系统包括 MongoDB、
25、CouchDB Apache Cassandra 等。相比关系数据库,NoSQL数据库采用了较为简单的数据模型。这 样做的好处是能够为特定的查询(如按键检索)进行优化,极大地提 高查询性能,从而具备非常好的可扩展性,能够应用于超大规模的数 据。另一方面,NoSQL数据库仅能支持关系数据库能够支持的数据 操作的一个很小的子集,例如大多数NoSQL数据库不支持关联查询 (join) o当进行NoSQL数据库不支持的查询时,用户只能自行编写 代码以满足需要。在医疗服务中产生的数据类型多样,既有适合关系数据模型描述 的结构化数据,也有图片和文本等多种非结构化数据。这种异构性 为医疗健康大数据的管理带来
26、了很大的挑战。许多关键业务数据要 求数据管理系统支持原子性(atomicity)、一致性(consistency)、完 整性(isolation)和隔离性(durability),而支持ACID的关系数据 库系统不适合存储非结构化数据。一种解决分级诊疗大数据分析平 台是采用两套系统分别存储结构化与非结构化数据,但这为两种数据 之间进行联接查询(join)带来了困难。例如,当要寻找某科室患者 的所有CT影像图片时,需要首先在业务数据库中查询到该科室所有 患者的ID,然后再到非结构化数据库中查找图片。这种跨数据库的 联接查询的执行效率不高。因此,就医疗健康大数据而言,需要研 究一种基于混合数据模型
27、的数据管理系统,能够高效管理结构化数据 与非结构化数据,并支持异构数据之间的高效混合查询。医疗服务对时效性的要求很高,很多查询都要求得到实时响应。智慧医疗中涉及实时查询的可大致分为:(1)与时间有关的查询,如检索监护对象某一时间段内的全部信 息;(2)与空间有关的查询,例如检索监护对象在某个区域(如某个 医院)内的全部信息;(3)与特定属性有关的查询,例如检索监护对象的血压变化历史 和用药记录等;(4)综合查询,例如检索监护对象在某段时间和某个区域内的某 项生命体征数据。高效实时查询的关键是必须预先了解查询类型并建立所需的索 引。当数据规模非常大时,现有数据库采用的索引技术基本能够满 足数据检
28、索的实时性需要,但在索引的创建与更新的性能方面有较大 不足。例如,我们的测试结果表明,用一台运行PostgreSQL的服务 器为200万条数据(约1GB)在一个空间属性上创建R-tree索引,用 时约为20分钟;在此基础上再次插入40万条数据(约0. 2GB),用时 约为60分钟。根据这个结果,当数据产生的速度大于960万条/天 时,即使服务器的全部计算资源都用于维护索引,索引的更新速度仍 将落后于数据产生的速度。而如果1个医疗传感器每15秒产生1条 测量数据,1万个这样的传感器每天将产生超过5000万条数据。这 意味着现有的索引更新方法无法胜任医疗健康大数据处理的需求。 此外,是一种常用的避
29、免更新索引的方法是在插入新数据之前删除索 引并在之后重新创建索引,但这种方法不能从根本上解决问题,因为 随着数据不断累积,重新创建索引所用的时间越来越长,最终会比更 新索引的速度更慢。为满足大数据实时查询的需要,必须对现有的索引技术必须加以 改进,将索引的创建与更新速度提高至少一个数量级。索引更新速 度慢的一个重要原因是数据逐条添加时引发了多次随机小量写操作, 因此首先需要重新设计索引结构,使其能够批量添加数据 (bulk-insertion),尽量用顺序写入大块数据取代随机写入小块数 据。另外,需要设计索引的并行创建与更新算法,使索引的创建与 更新能够在无共享架构中水平扩展。9.6大数据的复
30、杂分析在智慧医疗中,有很多复杂的数据分析查询,以下仅举几例:(1)医疗数据统计,如统计历年慢性病比例变化和各地区心脑血 管疾病分布等;(2)相似联接查询(similarity join),如根据CT成像图片, 寻找相似的病例与诊断,寻找骨髓移植匹配等;(3)医疗数据挖掘与预测,如寻找亚健康状况与职业、性别、年 龄等因素的联系和预测下一个月各类药品的需求等。这些复杂分析 查询的主要特点有:需要读取大量数据,所需计算时间长;查询灵活多变,难以预测;,涉及多学科交叉,需要医疗、统计、计算机等各领域的专业人士协作完成。传统关系数据库与NoSQL数据库难以胜任复杂的数据分析,其原 因主要有两个。首先,它
31、们在维护数据库的原子性、一致性、分离 性和持久性方面花费了巨大的开销,而在进行复杂的数据分析时,数 据往往是静态的,因此这些开销是不必要的。第二,它们的存储与 索引结构是为数据的随机读写与频繁更新而设计,没有为大量数据的 读取进行专门优化。目前,对大数据进行复杂分析的工具主要有两大类。一类是并 行分析型数据库,另一类是基于MapReduce的数据分析工具。分析型数据库基于关系数据模型,与传统关系数据库相比,其存 储结构与查询算法为数据读取进行了专门优化,如用列式存储 (column-store)替代行式存储(row-store) o目前主流的并行分析型 数据库的有Vertica和Greenpl
32、um等。这些数据库提供的用户接口 是与传统关系数据库相同的结构化查询语言(SQL)。这种实现方式降 低了用户的学习成本,但也带来了两个问题。首先,虽然关系数据 模型能够进行扩展以表示非结构化数据,但由于数据种类繁多,目前 缺少足够有效的理论与工具将非结构化数据转化为结构化数据;第 二,一些复杂的数据分析难以直接用SQL描述,即使能够用SQL描 述,其执行效率也比专门编写的过程化分析程序要低得多。MapReduce是Google于2003年提出的一种新的基于无共享架构 的并行计算范式。与传统并行计算范式(如MPI)相比,MapReduce 简化了并行数据处理算法的设计与实现,使用者仅需根据查询需
33、要定 义map和reduce两个函数,无需关心并行执行过程中的任务调度、 资源管理以及出错处理等问题。MapReduce最初是为处理Google的 海量文本数据的简单分析算法而设计。随着Apache Hadoop项目提 供的MapReduce开源实现在学术界与工业界广泛使用,MapReduce编 程模型被证明十分灵活。我们不仅可以在其上构建分析型数据库(如 Hadoop Hive),而且能够实现常用的数据挖掘与机器学习算法程序库 (如 Apache Mahout) o从大数据分析性能的角度看,数据库专家们对并行分析型数据库 与MapReduce的优劣曾经有过长达数年的争论。随着对两者研究的 深
34、入,目前已取得的主要共识有: 对于简单的结构化查询,当计算节点较少时(100台或以下),并行 分析型数据库由于采取了更优化的存储结构与查询算法,性能明显优于 MapReduce; 当计算节点较多时,此时计算节点出错的概率很高,并行分析型 数据库在出错时往往需要重新执行整个查询,性能会受到较大影响,而MapReduce的设计从一开始就将常态化的出错问题纳入考虑,因 此能够轻松扩展到数千台节点; 并行分析型数据库必须预先加载数据,而数据加载的时间通常十 分漫长,因此对于日志分析等仅需读取一次数据的任务并不合适;MapReduce比并行分析型数据库的应用更广泛,如能够处理非结 构化查询,实现复杂的数
35、据挖掘算法;尽管编程模型简单,但MapReduce仍需要专业人员进行编程工作, 并行分析型数据库的使用成本比MapReduce低。从严格意义上看,并行分析型数据库与MapReduce并不具备直接 可比性。前者是包含查询语言、逻辑数据模型、并行执行引擎、物 理存储结构等一整套机制的实现,而后者仅与前者中的并行执行引擎 的角色类似。整合二者的优点,可以构建出更为强大的数据分析工 具,这也是数据库领域一个活跃的研究方向。例如,为了保证高容 错性,MapReduce将计算的中间结果保存在磁盘上,这样做带来了巨 大的开销,影响了查询的执行效率。并行分析型数据库为了保证高 效,采用pipeline机制,即
36、上一步的结果在内存中产生后直接通过 网络推送到下一步的计算单元。由此可以得出一个构建高效可扩展 的分析型数据库的思路,即在pipeline机制的基础上,同时将中间 结果写入磁盘。事实上,二者的融合已经在目前最新的数据分析工 具(如Google Tenzing)中得到体现。无论是并行数据库还是MapReduce,都致力于解决机器的执行效 率问题。在对医疗健康大数据进行复杂分析时,医疗专家的知识与 智能在整个分析过程中起着至关重要的作用。但是,要求医疗专家 同时精通分析型数据库的使用甚至编写MapReduce程序,是不现实 的。因此,如何在这些复杂的数据分析系统之上,提供一个具备良 好可视化与互动
37、功能的交互界面,是帮助医疗专家发掘医疗健康大数 据价值的关键。10.用医疗卫生大数据为业务服务通过一系列技术处理,大数据可以帮助企业制定明智且切实可行 的战略,获取前所未有的客户洞察,支持客户购买行为,并构建新的 业务模式,进而赢得竞争优势。然而,实践往往会比理论来得更困难, 现实中许多企业管理者盲目收集数据并进行分析,期待能够得到快速 的回报。很遗憾,他们未能如愿。无论整体规划、技术平台还是业务 流程,大多数企业并未针对大数据分析做出特别的调整与变化。企业 要处理好大数据生命周期的每一个环节,就必须采用创新且经济高效 的处理方法,并跳出传统的数据管理思维。10.1 核心理念首先,管理者需要问
38、清自己这样一个问题:“大数据如何帮助我 的企业实现发展? 如果不能指导行动,那么收集再多的数据也是 毫无意义的。事实上,获得洞察力是一方面,可实践性也是分析的标 志之一。即企业能否从大量历史数据的“噪音”中获得可实践的预测 以及具有前瞻性的决策?其次,需要针对大数据分析来改变传统的业务流程与决策流程。 按照传统企业经营方式,高层的主观意见会对决策造成决定性影响, 这种现象到现在也还是非常普遍。让真实的数据来说话,这是许多企 业管理者需要进行的观念转变。当然,收集更多的数据并不意味着就 能够将数据转化为洞察,如果没有一个更适应大数据时代的技术架 构,它也会让企业的转型变得难上加难。第三,技术平台
39、不是万能的,但没有技术平台是万万不能的。在 很多情况下,我们会看到各种观点在弱化技术所起到的作用。事实上, 这样的观点是比较片面的。要真正掌握驾驭大数据,我们仍然需要一 个过硬的技术平台来作为支撑。你很难想象用现有的SQL数据库来分3.2达到的效果分级诊疗大数据分析平台预期部署到云平台上运行,采用SOA的 理念进行架构开发,通过分层将公共大数据算法模型封装为服务,对 业务应用提供服务,同时平台业务应用也是服务的形式存在,即应用 单位不再需要购买部署自己的服务器硬软件环境,只需要开通相应服 务就可以了。各个应用单位根据自己的业务需要定制服务,平台支持 “开通即用”服务模式,为实现业务应用集成,分
40、级诊疗大数据分析 平台将对外支持Web Service方式的接口服务。分级诊疗大数据分析平台希望将医疗卫生的智慧功能应用普及 到业务角色和过程的方方面面,包括医生(包括专科医生、全科医生、 保健医生等)、患者(包括慢性病患者、潜在患者等)、管理者(包括 医疗管理者、医疗保险管理者、医药监管管理者、公共卫生管理者等)、 医药经营者(药品研发、药品生产、药品物流、药品零售等)以及商 业医疗保险经营者(健康险、大病险、医疗意外险等)。析海量医疗卫生半结构化或非结构化信息,大数据需要我们有一个更 全面、更高效的平台来进行组织、处理和分析数据。同时需要考虑如 何将大数据平台,与原有的数据架构进行最佳集成
41、。10.2管理闭环这里采用一套方法论,帮助思考以下几个问题,并加大数据转化 为实在的收益:1 .我们是否拥有目前所需的大数据?2 .我们能否获取这些大数据?3 .获取大数据后,我们如何挖掘这些大数据的价值?4 .业务环境发生变化时,我们如何处理这些大数据?企业在进行数据管理方式转型的时候,需要从四个方面来把握并 覆盖数据的全生命周期,即设想、创建、部署和扩展,并以此形成一 个有机的闭环。根据这一方法论,推出了有针对性的大数据服务,帮 助企业从数据中获取全新洞察,进一步扩展业务功能,获得更多业务 机会。在设想阶段,企业需要制定一套大数据战略、路线图和计划。设 想业务的发展方向并确定大数据将如何帮
42、助企业以业务目标为切入 点。在这一阶段中,SAP的数据科学家将帮助企业挖掘大数据的潜在 应用场景,构建业务案例并确定大数据将为你的企业带来哪些价值。制定好路线图和战略后,你可以利用SAP大数据服务创建一个支 持大数据的最佳架构,从而实现目标。这一过程包括:安全集成新兴 技术与现有投资;设计一个全面的基础架构,以从多个数据源(通常 是现有数据集)获取数据;实施最佳大数据平台;以及将大数据的影 响纳入治理政策范围内。在部署阶段,也将是企业从大数据中获得回报的阶段。通过大数 据平台,支持企业运行分析应用,让企业进一步掌控全局,分析当前 信息和历史信息。通过预测分析能力来提升业务成果;以绝佳的可视 化
43、效果传达和共享洞察;以及根据需求将信息交付给业务用户,并支 持移动设备的信息共享。最后,基于企业现有的大数据潜能,大数据服务将让企业以一种最灵活、运营成本最低、且最能满足需求的方式部署解决分级诊疗大 数据分析平台,从而充分利用新环境,获取更丰厚的业务成果。通过 内部部署、云模式或混合模式来部署解决分级诊疗大数据分析平台。评估企业的现有功能,然后建立能力中心,推出企业所需的新技能,从而更有效地管理大数据并扩展大数据的影响力。步骤3 (A)待定1-2周如何开启你的大数据之旅(本内容参考参照SAP资料所给流程步骤)从评估大数据业务,到发现大数据价值、设计大数据架构,再到 实施大数据平台、工具以及管理
44、和优化大数据解决分级诊疗大数据分 析平台。才能形成实现业务数据管理的闭环,为企业进行大数据时代 转型提供个性化的指导,充分利用不同流程的各种数据源,获取全新 的、有意义的洞察。即在充分认清大数据重要性的基础上,企业需要理解大数据之于 业务的价值点,然后在规划的每一个阶段以及企业的每一个层级中充 分利用数据,进一步扩展大数据的影响力从而形成良性循环。让更多 的员工,更有规律地,更好地利用那些可管理的数据,然后让业务逐 渐能够基于数据来采取行动。通过这样的管理新思路,才能够真正让 大数据为我所用。11 .未来市场前景分析基于医疗卫生的海量数据,通过大数据分析可以预测具有非常广 泛的市场应用前景,虽
45、然现在说对医疗卫生产生颠覆式变革还为时尚 早,但是基于医疗卫生信息的大数据分析将改变医疗卫生业务的方方 面面并不为过。未来医疗的精髓在于电子病历、电子健康卡以及相关信息(医药、 人口等)的快速准确收集、传输、存储和分析处理,电子病历系统以 电子化方式记录患者就诊的信息。世界各国对电子病历建设都极其重视,美国、日本、欧洲对电子 病历建设均进行了大量投入。2009年美国通过的经济复兴法案同时 包括10年190亿美元在电子病历领域的投入,目前的估计是实际投 入将达270亿美元;英国政府10年投入了 55亿英镑做电子病历。当 数百万、千万的病历汇集在一起,利用大数据进行挖掘后,其应用前 景十分惊人。对
46、患者来说,电子病历使患者拥有自己完整的电子健康和医疗档 案,并可以通过索引在各个医疗机构调取自己的相关信息,实现跨地 区、跨机构、终生的医疗健康信息共享。对医疗机构来说,可以实现患者统一高效的管理。对于了解病情、 临床决策、提高医疗质量及科学研究等都具有至关重要的作用。同时 可以实现区域内不同医疗机构之间、不同应用系统之间的患者映射, 确保患者信息交换的一致性和准确性。对社保机构而言,可以通过患者主索引查阅患者的健康档案,从 而准确地了解患者完整的医疗信息,为医疗保险提供确切的证明。将电子病历信息进行大数据挖掘后,还会有更大的魔力。比如医 疗信息系统会提醒医生开处方时患者的药物过敏反应。医疗信
47、息系统 还可用于人群监测,如对将会流行的传染病的早期症状加以监控,或 对新上市的处方药的副作用加以关注。12 .总结未来5年内,医疗健康大数据所创造的价值将会达到上千亿美 元,同时产生10万个工作岗位,还会产生文化、社会、政治等方面 的影响,正所谓得数据者得天下。虽然目前大数据技术在医疗领域大 规模应用的条件还没有完全成熟,但随着高速网络、云计算中心等基 础设施的日趋完善和大数据技术的不断发展,医疗领域发展的趋势必 将是以大数据技术驱动的个性化、创新化、便利化的智慧医疗。4 .分级诊疗大数据分析平台理念医疗卫生、健康保健、医药器械形成的海量数据就象一座待开发 的金矿,利用大数据技术、云计算技术
48、、物联网技术和便携设备技术 的最新成果,将给医疗卫生事业带来全新革命性的改变,明显解决看 病难和看病贵的问题,达到医疗卫生资源配置分布合理、大病小病治 疗各司其职、疾病预防治疗有机结合、公民健康保健全过程覆盖。5 .总体思路通过建立医疗卫生大数据的统一标准和规范,形成可被相关业务 应用所利用的医疗卫生大数据源和交互机制,在此基础上,首先形成 专题大数据应用,这些应用具有跨部门和组织机构的通用性,并具有 良好的稳定性,因为这些应用是面向医疗卫生专题的;基于专题大数 据应用,根据医疗卫生相关部门和组织机构的业务要求,可开发形成 各种业务大数据应用,并且随着平台的推广,积累的医疗卫生业务大 数据应用的实例将会越来越多,并最终形成不同方向的最佳应用样 例。专题大数据应用医疗卫生大数据源患者分析疾病分析用药分析费用分析健康分析药品分析资源分析效果分析业务大数据应用安全风险分析5.1 对接数据源,获取医疗卫生大数据医疗卫生大数据中心为分级诊疗大数据分析平台进行医疗卫生 大数据分析提供数据源,但不在分级诊疗大数据分析平台范围内,并 平台只是开发提供一套与该数据中心的数据读取接口,并具有监控数 据读取情况汇总统计和异常提示功能。该数据中心的