《9月3日311A下午-王安莉.pdf》由会员分享,可在线阅读,更多相关《9月3日311A下午-王安莉.pdf(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、基于Hadoop+Mpp平台架构的 数据中心在辅助决策体系上的应用 THIRD XIANGYA HOSPITAL OF CENTRAL SOUTH UNIVERSITY 中南大学湘雅三医院中南大学湘雅三医院 信息中心信息中心 王安莉王安莉 高级工程师高级工程师 平台架构 1 平台治理 2 平台应用 3 Centent 目 录 平台架构 1 1 平台架构 医疗数据实践中的共性问题 历史的采购/合同及行为变化 市场信息 与主动性 华为毛利率数据 业务战略的理解 销售什么?卖什么?如何参与?如何赢得?资源/时间投资?当前系统视图 客户相关 活动 华为相关 活动 客户资源视图 客户&领域 战略规划 O
2、DMT 审视委员会 区域客户 营销计划 华为Offering 客户&市场细分 工具及跟踪/资质评分 价值主张 客户需求 客户价值贡献模型 Poor Weak Normal BSS Integration Service Business Intelligence Customer Relationship Management Domain Customer Support Service Customization Service Consulting&Integration Service Learning Support Service IT Managed Services/ITO B
3、SS Managed Services Managed Operation(CBS,CRM,etc)Contact Center BPO Revenue Management Domain Online Charging Mediation Revenue Audit Settlement Mobile Payment Convergent Billing E-Top Up Solution CRM Suite Smart Campaign Total Experience Storefront Contact Center Marketing&Sales Contact Center Opt
4、imization Service MBB Value Growth Consulting Service IN&Billing Managed Service BSS Management Service SOP RTD DWH (Data Warehousing)Managed Managed BSS/BSS/IT OperationIT Operation Enterprise Mgmt SupportEnterprise Mgmt Support Enterprise Collaboration Support Finance Mgmt Support Supply Chain Mgm
5、t Support HR Mgmt Support Business Operation SupportBusiness Operation Support Comm.Resource Mgmt Support Customer Mgmt Support Billing&Revenue Mgmt Support IT Infrastructure OperationIT Infrastructure Operation Core Infrastructure Mgmt Data Centre&Facility Mgmt Desktop&Communication mgmt Applicatio
6、n OperationApplication Operation BSS Application Maintenance&Support MSS Application Maintenance&Support E2E Service ManagementE2E Service Management SR/Incident/Problem Mgmt Change&Release Mgmt.Capacity&Perf.Mgmt.Service Delivery Service Delivery TransformationTransformation Right-shoring ITSM Proc
7、ess Enhancement Business Process Quality MgmtBusiness Process Quality Mgmt Order To Payment KQI Request to Change KQI Usage to Finance KQI Request to Answer KQI Product Mgmt Support BSSBSS (含(含 OSS OSS FulfillmentFulfillment)OSS MSS IT App ESB/SOA 1 2 3 4 数据分散在各个业务系统中,每个系统承建厂商不同,标准不同,难以关联分析 数据来源多样,难
8、以综合利用随访数据、可穿戴设备数据、环境数据等 非结构化数据难以利用,难以量化分析疾病规律、治疗方案优劣 数据不完整,各种字段存在缺失 数据质量缺乏控制,缺乏有效的数据治理手段 传统架构数据存储量有限,海量数据资产难以有效管理 缺乏统一规划,每个业务科室随时找信息中心要数据,数据重复利用率低 数据存储的格式有限 难共享难共享 难利用难利用 难管理难管理 没价值没价值 缺少数据建模和分析手段,大量数据存在,但无法产生价值 缺少数据分析的专业团队及经验,专业人才匮乏,多学科融合难度大 1 平台架构 医疗数据中心的启动条件和迫切性 医院信息化管控到位 医院标准化工作推进顺利 领导的大力支持 信息化工
9、作的认可 各家业务系统厂商的沟通 信息化团队初步到位 硬件网络的购买搭建 各部门对数据应用的要求 信息标准化工作的迫切需要 医院信息化建设烟囱式发展带来的风险 各系统对互联互通的要求 院领导对数据运营管理的需要 满足医生科研数据的需要 医疗数据分析挖掘预测的需要 1 平台架构 三大服务、二十大建设目标 Page6 服务临床 服务管理 患者360视图 数据监管 电子病历浏览器 多维度检索系统 治疗、用药评价 数据治理 服务器链接 服务科研 临床数据中心(临床数据中心(CDRCDR)运营数据中心(运营数据中心(ODRODR)科研科研数据中心(数据中心(RDRRDR)科研检索分析系统 大数据洞察 基
10、础平台 标准平台 临床数据中心库临床数据中心库 数据接口与访问数据接口与访问服务服务 数据集成服务数据集成服务 主数据管理主数据管理(MDM)(MDM)患者主索引服务患者主索引服务 知识库 专病CDR个性化定制 专病CDR通用版 1 平台架构 Hadoop+MPP融合架构 Hadoop MPP 分布式数据库 MPP分布式数据库:Shared Nothing、并行计算、集群横向扩展、列存储、自适应压缩、智能索引、数据一致性、ASNI SQL、高可靠(备份组)Hadoop分布式计算:NoSQL对半结构化数据自适应扩展、HDFS非结构化数据分布式存储、Solr/ES全文检索、MR/Spark分布式计
11、算、Stream流式处理、机器学习 高价值密度数据 结构化数据 低价值密度数据 大数据应用 结构化数据 非结构化数据 半结构化/非结构化数据 大数据应用 1 平台架构 Hadoop+MPP融合架构先进性 MPPMPP数据库数据库 HadoopHadoop Hadoop+Mpp 应用场景:应用场景:大数据量的结构化数据复杂关联查询,多维分析、统计分析、数据仓库,高实时性场景。优势优势 复杂关联查询,支持存储过程,准实时即席查询等结构化数据的运算。产品稳定成熟,高可靠性。劣势劣势 处理半/非结构化数据问题较大。无法借力开源生态系统,场景局限性大。应用场景:应用场景:数据采集类分析、日志分析、流处理
12、、机器学习、海量数据离线批处理、图片、音视频等非结构化数据的存储。优势优势 适合处理半/非结构化数据,机器学习;强大的开源生态圈,百花齐放;劣势劣势 存储过程是Hadoop硬伤。90%的电信,金融等高端数据库应用都使用存储过程。已有分析应用迁移困难;开发复杂度高,对开发人员要求高;Hadoop+MPP混搭配合能适合用户所有场景,且性能优秀。混搭配合能适合用户所有场景,且性能优秀。1 平台架构 极速-性能卓越 复杂关联查询,MPP比传统数据库快1010倍倍到300300倍倍 复杂关联复杂关联 查询慢查询慢 传统数据库传统数据库 MPP 序号序号 测试场景测试场景 OrcaleOrcale性能性能
13、(秒秒)MPPMPP性能性能(秒秒)1 1 同住宿 823.18 2.14 3 3 同上网 58.21 2.84 4 4 同机构 28.17 2.84 5 5 安全审计登录日志查询 119.35 0.50 6 6 安全审计接口服务日志查询 401.09 1.50 真实测试(以高血压联合用药及主述复杂关联查询场景+MPP)1 平台架构 数据清洗 难点难点 进度进度 亮点亮点 3 2 1 数据清洗过程数据清洗过程 0 1 2 3 标准不统一:字典表以及编码体系不标准统一,一套字典表多个系统维护,缺乏关联关系 厂商众多:系统间通信交互缺乏有效的约束和规则标准 数据不规范:加载过程中含有不符合要求的数
14、据,主要由不完整的数据、错误的数据、重复的数据三大类组成 数据格式不统一:格式内容错误比如时间、日期、数值、全半角等显示格式不一致 关联性验证困难:如果多个数据源就要进行关联性验证,比如要如何追踪一个病人的化验单是来自那次就诊的那个医生开的医嘱 经过清洗后形成统一规范的标准数据仓库 整个数据在业务流程上形成了一个闭环 建立标准化编码体系和标准规范 提供高质量的数据 格式内容错误 关联性验证 重复错误的数据 新增数据源(分级医院,物联网,APP)的清洗 字典表以及标准编码体系的建设 业务系统编码和标准编码之间的对应关系 后续补充 1 平台架构 数据清洗 数据质量的管控 对问题数据导出:a、数据重
15、复 b、属性值错误 c、数据不一致 格式处理、统一编码 字段取舍和上下文处理 数据校验和稽核 分析数据源 理解业务规则 数据质量分析数据质量分析 通过通过ETL过过 程进行数据程进行数据 整合整合 数据分析和业数据分析和业务逻辑理解务逻辑理解 错误数据反馈错误数据反馈回业务系统回业务系统 业务系统数业务系统数据问题整改据问题整改 1 平台架构 数据整合 数据和信息系统分散数据和信息系统分散,应用应用系统众多系统众多,并积累了大量的并积累了大量的基础数据基础数据 数据类型众多:数据类型众多:时期时期、部门部门、设备设备、技术技术、能力等不同能力等不同类型的数据类型的数据 数据接口五花八门:数据接
16、口五花八门:大量的大量的数据不能提供一个统一的数数据不能提供一个统一的数据接口据接口,不能采用一种通用不能采用一种通用的标准和规范的标准和规范,无法获得共无法获得共享通用的数据源享通用的数据源 手工录入数据以及第三方数手工录入数据以及第三方数据进入问题据进入问题 难点难点 做法进程做法进程 前期:初步完成了以临床为中心的数据集中(HIS,LIS,RIS,EMR,手麻)的整合汇聚 中期:完成全院级别的整合汇聚整合完成非结构化数据的整合 第三期:解析完成院外,物联网,APP等数据整合 后期:更多数据整合 亮点亮点 实现异构实现异构,异质异质,异源的数据异源的数据物理和逻辑上的集合物理和逻辑上的集合
17、,构建一个满足多应用的大数据中心 提供跨越不同系统的信息分析提供跨越不同系统的信息分析和利用能力和利用能力 支持大集中的业务应用支持大集中的业务应用,以及信息深层次集成分析应用的部署提供多样化,多级,多层次数据应用,为管理,科研提供支持,例如药耗,绩效等 满足实时请求和海量数据的分实时请求和海量数据的分析析,结构化与非结构化数据存结构化与非结构化数据存储应用储应用 1 平台架构 安全建设 网络安全网络安全 通过防火墙、IPS将内外网络隔离 维护平面和业务平面通过子网隔离 身份认证(身份认证(RBACRBAC)访问DataEngine Manager用户管理和审计 所有大数据组件WEBUI服务支
18、持单点登录认证 支撑用户密码加密策略,支持基于角色的访问控制 权限控制权限控制 大数据服务用户鉴权管理 细粒度的权限管理,可按照表/按列控制访问权限 数据加密数据加密 Hive,MR和HBase在固化到HDFS中的数据均支持加密存储 细粒度的安全管理,可按照表/按列加密 工作流调度工作流调度 为指定用户或组授予流程的执行、管理权限 为某个流程设置可使用的MR队列资源 数据脱敏数据脱敏 患者姓名、电话和身份证号为脱敏信息 关键临床数据和敏感结果为脱敏信息 外网 内网 1 身份认证 3 Oozie 工作流 MR 批处理 HDFS 分布式文件系统 Hive 数据仓库 HBase 数据库 Spark
19、实时处理 MPP 并行数据库 3 1 4 4 5 2 3 4 5 2 6 6 平台治理 2 2 平台治理 平台需要治理并形成良性运转的生态圈 数据资源层数据资源层 数据采集 与发现 数据标准 定义与维护 质量度量 与监控 清洗规则 定义与应用 数据资产 优质 共享数据 主动监控 数据质量审计 数据血缘分析 程序性能 业务价值(ROI)自动规则 手动规则 端到端流程 业务/IT协助 数据发现 数据调查分析 数据目录、清单 过程清单 CRUD分析 能力评估 术语定义 数据分类 数据关系 引用数据 业务规则 数据治理策略 其他依赖策略 关键性能指标 2 平台治理 平台治理中心建设功能组成 数据 总线
20、 数据 展现 监控 资源 目录 数据 标准 元数据 主数据 数据 质量 数据 桥接 数据 处理 日志 上报 监控 代理 服务 代理 管控中心 节点 1-n MQ 2 平台治理 数据中心数据治理平台 用户不再需要关心数据资源网络位置关系,无需编程,无需中间文件用户不再需要关心数据资源网络位置关系,无需编程,无需中间文件 通过管控中心通过管控中心WebWeb界面导向就可以完成复杂的数据采集、清洗、转换的过程界面导向就可以完成复杂的数据采集、清洗、转换的过程 采用分布式架构,通过管控中心采用分布式架构,通过管控中心WebWeb界面,集中远程管理所有节点上的数据资源、界面,集中远程管理所有节点上的数据
21、资源、交换流程。节点参数由管控中心配置,配置文件无需手工修改交换流程。节点参数由管控中心配置,配置文件无需手工修改 2 平台治理 数据中心数据治理平台 数据资源A 数据资源B ETL流程 正确数据 问题库 日志库 问题数据 错误明细 数据质量管理 统计、分析、反馈 数据流转过程对用户透明,方便及时、准确发现流转过程中的问题数据 交换网络状态对用户透明 丰富的api访问接口 清洗规则 2 平台治理 数据中心数据治理平台 节点数扩展无限制,支持多中心级联 丰富的api访问接口 支持清洗规则自定义编程 根据负载情况动态扩展组件支撑 支持多租户扩展 节点端采用插件机制,可以扩展节点处理机制 2 平台治
22、理 数据中心数据治理平台 流传输技术 P2P数据传输技术 断点续传技术 本地数据库到库转移:20000条/秒 远程数据库到库转移:10000条/秒 本地数据清洗:6000条/秒 高性能传输高性能传输 高性能高性能处理处理 远程数据清洗:5000条/秒 本地数据库到库转移:800746条数据,35秒处理完成,平均22878条/秒 2 平台治理 数据中心数据治理平台 本地数据库到库转移:800746条数据,35秒处理完成,平均22878条/秒 系统兼容数据库系统兼容数据库 Oracle、MS SqlServer、Mysql、DB2等 兼容操作系统兼容操作系统 Linux、Windows、Unix
23、资源接入类型资源接入类型 结构数据 半结构数据:xml文件、Excel文件(2003及2007格式)、文本文件(txt、csv)、Web服务 传输通道:消息中间件(ActiveMQ、东方通Tong LINK/Q、IBM Message Broker 以及其他支持JMS的消息中间件)2 平台治理 数据中心数据治理平台 系统提供数据、业务和操作多层次安全控制 系统提供严格的权限控制机制,包括功能权限、操作权限和数据权限控制 管控与节点间数据传输采用加密和认证机制 数据流转提供良好的日志审计机制,数据的流动有详细的审计记录 平台应用 3 3 平台应用 基于数据中心的辅助决策体系 数据数据 中心中心
24、目的 面向三级医院医生:面向三级医院医生:提供提醒服务提供提醒服务 面向基层医院医生:面向基层医院医生:提供常见病、多发病的决策支持提供常见病、多发病的决策支持 面向患者:面向患者:提供自我支持,避免对错误、过时信息的提供自我支持,避免对错误、过时信息的 获取获取 3 平台应用 基于数据中心的辅助决策体系-由个体研究到群体研究 既往病历既往病历/案例案例 信息超载信息超载 面对大量信息,反而利面对大量信息,反而利用率低下用率低下 如何从海量数据提如何从海量数据提取知识、展现给医取知识、展现给医生以提高临床决策生以提高临床决策质量?质量?临床决策 医师个人经验医师个人经验 循证证据循证证据 文献
25、与指南文献与指南 近近20年信息化发展年信息化发展,累积了海量电子,累积了海量电子病历数据病历数据 近年近年MEDLINE生物医学文献库中高血压文献量生物医学文献库中高血压文献量 爆炸式增长的文献爆炸式增长的文献数量(图)数量(图)3 平台应用 基于数据中心的辅助决策体系应用范畴 数据中心数据中心 3 平台应用 基于数据中心共享平台的辅助决策体系 3 平台应用 1 Sankey Diagram,最开始是用于反映发动机的能源效率,在可视化领域,桑基图有利于展现分类维度间的相关性,以流的形式呈现共享同一类别的元素数量。我们把它用 来表达集群的发展,例如展示降压方案在不同阶段的表现。2 采用多元统计
26、技术如因子分析、聚类分析、关联规则分析 和多维尺度分析等,通过对大量医疗数据的分析,探索出 症状之间隐藏的关联模型并绘制“知识图谱”,最终通过 社交关系图(Social Network Visualization)来展示。3 通过treemap来表达医疗诊断的层级关系,treemap是一种非常高效的可视化表达方式,不但可以 表达结构,还可以用大小、颜色、标签在多个维度上显 示数据属性,目前被用于Google新闻可视化表达和美国 股票市场涨跌情况等领域。4 一种寻找数据之间一种内在结构的技术,在实际应用中会 根据数据类型、聚类目的和具体应用来采用不同算法,比如划分聚类的算法 K-means,层次
27、聚类的算法CURE算法。目前聚类分析已经广泛应用于医疗信息领域。5 对网络文本中出现频率较高的“关键词”予以视觉上的 突出,多用于微博、Facebook等网络交流平台,目前我 们运用于医疗大数据。6 通过参考Oracle在药物研究领域的案例,采用Apriroi 算法 我们研发用药效益分析应用,实现通过对海量临床诊疗数据 进行分析,寻找某种药物剂量或多种药物不同剂量比例与实 际治疗效果之间的关联。7 桑基图 症状图谱 诊断分层 聚类分析 词云 Drug Era 和弦图 信息量大、视觉冲击强、功能创新,这些都是和弦图的特点,在表达复杂数据间的关系和流量有很好的表现,目前很多顶 级数据分析机构都有使用和弦图,比如全球最具权威的IT研 究与顾问咨询公司Gartner,而医疗大数据关系复杂、种类 多样的特征特别适合采用和弦图。谢 谢 大 家!