《智慧医疗 城市医院医疗大数据机构数据采集管理系统建设方案V3.docx》由会员分享,可在线阅读,更多相关《智慧医疗 城市医院医疗大数据机构数据采集管理系统建设方案V3.docx(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、城市医院医疗机构数据采集管理系统建设方案文件编号202X QK011/ BT-ZTA-QK011文件状态草稿J正式发布正在修改当前版本拟制日期审核日期第三章监控运维31系统概述数据资源平台上数据量庞大、数据类型多样、数据业务复杂,数 据处理任务也非常多,数据处理环节和流程周期长,需要支持高并发、 多周期、支持多种数据处理环节的统一数据任务调度机制,按照策略 进行数据任务调度。监控运维为数据开发者和维护者提供一站式的数 据运维管控能力,用户可自主管理作业的部署、作业优先级、以及生 产监控运维。平台提供数据监控运维、任务运行情况监控、异常情况 告警、日常运维数据统计等功能。32运维概览运维概览:主
2、要用来展示调度任务的指标数据情况,目前包含以 下几类:任务完成情况、任务运行情况、任务执行时长排行、调度任 务数量趋势、近一月出错排行、任务类型分布、30天基线破线次数 排行。33任务运维可视化展示调度任务DAG图,极大地方便用户对线上任务进行 运维管理;支持任务运行状态监控告警,支持单任务重跑、多任务重 跑、kill、置成功、暂停等操作;支持两种模式选择:包括列表、DAG 模式。可以针对周期运行、测试运行、手动运行任务查看任务运行状态。可以针对任务进行重跑、停止、查看运行日志、查看节点代码、 查看节点属性。34监控告警监控告警是调度任务的监控保障系统,当任务出现错误的时候, 系统会通过预定义
3、的方式告知用户任务失败。用户可以按照自己定义 的规则来配置告警规则,及时调整任务产出,保障产出数据的及时性 和可用性。第四章数据质量41系统概述数据质量主要用于数据质量监控,其拥有一套完善的规则校验体 系,用户可以配置诸如唯一性监控、波动监控、空值监控等监控规则, 如果违反相应监控规则,触发报警给相关人员。数据质量以数据表为监控对象,当表中数据发生变化的时候则会 触发数据质量的的校验逻辑,对表中的数据进行校验,帮助用户避免 脏数据的产出和质量不佳的数据对整体数据的污染。同时数据质量中 会保留所有规则的历史检验结果,以便用户对数据的质量进行分析和 定级。针对实时数据也提供对应质量监控接入,提供数
4、据断流等质量 信息监控,方便用户对流数据的实时性进行管控;42规则配置数据质量监控模块支持灵活的规则配置,预置30种以上的内置 基础业务模板,拥有完备的数据质量度量标准。模板中提供了波动阈 值比较、固定值比较两种度量方式,覆盖字段级、表级规则,包含空 值、唯一值、离散值、最大值、最小值、平均值、汇总值等采集方法, 且提供了自定义规则适配多样化业务需求。4.3 .自定义规则系统支持自定义编写规则表达式。支持标准SQL形式的自定义 规则,任意复杂度。规则强弱分类、红橙等级预警。服务将规则按照 重要程度划分成强、弱两种,按照偏离预期程度划分成红、橙阈值。 当重要的规则严重偏离期望值时能够阻塞数据生产
5、链路,防止脏数据 污染下游,保障生产链路的数据正确性。44并发可用型规则采集引擎支持可配的资源池,且支持水平扩展。此外,数据 质量提供了可靠的容错机制,保障采集作业状态的一致性和正确性。45智能优先级保障规则采集引擎执行层面,提供了优先级错峰保障机制,在资源有 限情况下,保障强规则的任务能够得到第一时间的执行,在资源空闲 时,弱规则的任务能够得到有效的执行。46质量报警当出现质量问题触发规则时,对应负责人会收到相应的报警提示, 及时对数据质量进行处理优化。4.7,质量总览为数据质量管理人员提供监控总览情况,用户可展现目前数据质 量总体/个人所监控的表的总数、配置的规则总数和今日运行任务情 况的
6、统计信息。第五章数据安全整个数据资源平台上的数据安全是重中之重,敏感数据防护更需 要符合行业规定和数据隐私法律等规定,数据安全模块为平台提供安 全服务,通过以下功能保障数据安全和对应自定义化的安全功能配 置:数据资源平台内部,积累大量敏感数据,一旦发生泄漏,损坏, 不仅仅会给带来数据损失,更重要的是会影响平台的权威性和可信性。 为了保护数据安全,首先要知道敏感数据在哪里,通过数据安全等级, 发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定 义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝 密、机密、正常等等级进行对应安全规则保障。5.1 .数据保护对于数据的访问都应当受
7、到监控,确保敏感数据访问的合法性、 合理性、安全性,规范用户对访问敏感数据的访问权限,对于不同的 行业,不同的应用系统,需要分析关联操作可能带来的安全隐患,并 加以记录及控制。52数据访问审计特权用户的不正当操作有可能会威胁整个数据系统的安全。在生 产环境中,对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以 确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为 的出现,进而保证数据系统的安全。53医疗数据脱敏包含有敏感信息的数据库,在不限制用户访问的情况下,需要对 敏感信息进行动态遮蔽。比如,存储有关公民个人信息,例如,身份
8、 证号码,电话号码,电子邮件等,应该对这些敏感信息进行部分或者 全部遮蔽,来达到数据安全保护的目的。动态访问遮蔽是在不确定能 够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问 时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信 息进行动态访问遮蔽,从而达到俣护数据安全的目的。脱敏目标数据包括医疗结构化数据及Dicom索引下的隐私数 据。脱敏方式包括:无需脱敏/掩码(部分数据/字段以X代替)/K-泛化匿名(即数据泛化)/全隐匿。54采集交换流程分析上述流程图综合介绍了数据采集、数据定时交换、数据实时交换的数据流程。数据采集通过在各接入医疗单位及医院部署前置机,接入单位将数据
9、以备份数据方式实时向数据中心的数据采集库上传,经过处理清 洗转标后,入库成为正式数据。数据定时交换与数据采集的流程类似, 只是数据为双向交换模式。目录第一章医疗机构数据采集3医疗数据算法31.1. 基础算法3业务算法31.2. 质量监控3日志监控4第二章数据资产管理5资产门户52.1. 数据地图5数据血缘72.2. 资产管理7类目与数据资产关系管理82.3. 数据开发8第三章监控运维103.1. 系统概述10运维概览103.2. 任务运维10监控告警11第四章数据质量12系统概述124.1. 规则配置12自定义规则134.2. 并发可用型13智能优先级保障134.3. 质量报警1347质量总览
10、13第五章数据安全15数据保护155.1. 数据访问审计15医疗数据脱敏165.2. 采集交换流程分析17第一章医疗机构数据采集1.1 ,医疗数据算法提供标准化的医疗数据算法,至少包括:12基础算法:文本结构化 :字符预处理:医疗NLP :医疗字典13业务算法 :预测算法:挖掘算法 :智能算法分析算法14质量监控具备抽取的不合法数据转成正确的目标数据库所需要数据的功 能,有以下几种情况的数据清洗工作:必需填写的项为空、数据长度 不己法、值域不合法、取值范围不合法、数据项之间逻辑冲突。15日志监控1)具备通过调用审计日志服务,记录系统的使用详细信息的功 能。2)支持对服务操作调用的情况、使用频率
11、、资源峰值空闲,日志归档的功能。第二章数据资产管理经过数据集成后,业务系统及医疗大数据资源平台里都有大量的 数据表、API等各类数据资产,数据管理者通过数据集成工具同步数 据、通过数据开发加工数据后,需要对整个平台数据进行统一管控, 了解平台的核心数据资产,提供对应数据资产管理规范。2.1 ,资产门户对平台的数据资产进行统一管控和查看,无论是各类型数据的元 数据信息,都需要能从资产门户,让使用者知道有哪些数据可用,让 管理者知道有哪些属于可管,平台能对数据状态情况进行查看和分 析。22数据地数据地图面向数据开发者,汇聚用户所有数据信息,通过元数据 信息收集、数据血缘探查、数据权限申请授权等手段
12、,帮助数据资源 平台完成数据信息的收集和管理,解决数据资源平台数据开发者”有 哪些数据可用“、到哪里可以找到数据”的难题,并且提升数据资源的 利用率,数据地图包含以下功能: 数据概览 展示面向开发者和管理者的数据资产情况,包含总项目数、总表 数、占用存储量、消耗存储量,占用存储TOP排行等;数据表详情展示数据表的详细信息。包括:表字段信息、分区信息、数据产 出信息、变更历史、血缘信息。 字段信息通过字段信息可以了解表的结构,甚至可以通过这些基础信息直 接获得表的DDL语句,以完成类似数据表结构的建设;分区信息当该数据表存在分区,即可了解通过分区信息可以看到表的分区 情况,每个分区大小、数据量的
13、波动情况,了解产出数据在数据量上 的稳定性。 产出信息通过产出信息可以推断表产出时间的波动情况,在依赖该表时可 以推算下游表的产出时间及是否可以稳定产出。 历史变更可以了解表级别、字段级别、分区级别的修改情况,从而推断表结构稳定性、变化频率等特征。23数据血缘根据数据资源平台里任务的运行信息和记录,通过分析,提供数 据表、字段级别的血缘关系;包含上下游血缘、影响分析。用户可以 了解表数据的来源,数据表的使用者,改动表带来的影响情况等信息。 并且通过可视化的方式,看到表的上游、下游,并能不断追朔,方便 用户了解数据的来源和下游的使用情况数据权限用户可在数据权限中,完成对数据表和API的权限申请和
14、审批过 程,并提供申请的全部历史信息情况。2.4 ,资产管理类目管理数据资产类目编制的过程是梳理资产、明确职责、规范工作、整 理和挖掘数据资产的过程。可支持多套视角下的类目编制,帮助用户 快速清晰的定义各个分类。类目属性设置数据资产管理方可针对类目进行属性设置,包括共享属性、类目说明等内容,支持日常的维护和更新。类目与数据资产关系管理数据资产管理方可针数据资源和各种类目关系进行对应维护管 理,保障类目和数据资源的关系可靠清晰。主要包含数据表、API服 务等资产与和资源类目的关联维护。数据表管理针对资产数据表提供对应的元数据信息管理,核心元数据是描述 数据资源各种属性和特征数据的基本集合,包括数
15、据资产基本信息、 说明信息(例如摘要、分类等)、管理信息(例如负责单位等)。同时 支持离线表管理以及生命周期设置,帮助用户对表的创建到回收都是 可管控、可治理的。对应数据表管理者也可在数据表管理中,对不完 整的数据资源信息进行修改说明,完善业务信息上下文,让管理者和 使用者能更清晰了解其业务含义。25数据开发当底层数据进行聚合后,数据仍然出于零散的状态,数据是无法 直接为上层智能算法和DI应用提供对应数据的,此时需要对数据进 行汇聚加工。数据管理和开发人员需要在数据资源平台建立对应的数 据中心,进行对应数据的加工。数据开发为数据使用者提供一站式 的集成开发环境,可满足数据资源平台下,数据开发者进行ETL开 发、数据挖掘算法开发、数据主题库建设等需求。工作流设计器:帮助用户配置数据开发节点任务,包含ODPS SQL、ODPS MR. Shell、机器学习、数据同步、虚拟节点任务。可 以被工作流任务or其他节点任务依赖,并能够被调度系统调度,完 成数据仓库的建设。