《中的决策支持系统.ppt》由会员分享,可在线阅读,更多相关《中的决策支持系统.ppt(72页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第9章 HIS 中的决策支持系统医院信息系统的决策支持医学决策支持:医疗工作中的计算机辅助决策支持管理决策支持:计算机辅助管理决策支持决策支持基础统计学数据仓库人工智能第1节 医学决策支持的基本概念1、基本概念医学决策支持:临床医生经常为病人的诊断、治疗作出决定。这些临床决定亦即临床决策(clinical decision)。决策(decision making)就是为达到同一目标在众多可以采取的方案中选择最佳方案。临床决策支持系统:指帮助医务人员制定临床决策的计算机程序。2.医学决策基本过程逻辑推理:如A能推出B、B能推出C,则A一定能推出C。由于医学中没有严格的规则,所以用得少。归纳推理:
2、启发式推理:上一次推理得出的结论,做为第二次循环推理的前提,循环推理,逐步求精。临床上的鉴别诊断:不同的疾病为不同的概念集合,而不同疾病之间有很多交集。鉴别诊断:区分交集部分的不同集合。疾病A疾病B交集交集划分非确定性的交集划分疾病A疾病B交集决策分析的基本步骤:供临床选择的治疗方法有时很多,此时要筛除一些“劣”的决策,有利于下一步的分析。确定各决策可能的后果,并设置各种后果发生的概率。确定决策人的偏爱,并对效用赋值。在以下三步基础上去选择决策人最满意的决策,即期望效用最大的决策。2节 医学决策支持的基本技术1 概率方法与决策分析1)事件及其相互关系必然事件:必然事件:在一定条件下必须出观的现
3、象 不不可可能能事事件件:在一定条件下必然不出现的现象。随随机机事事件件:在一定条件下,可能出现也可能不出现。“两事件A,B中至少有一个出现”也是一事件,称此事件为A,B的和,记作AUB;事件“A1,A2,A3,.An中至少有一出现称为Al,A2An的和,记为Al UA2Un。若“n个事件A1,A2,A3,.An都出现也是一事件,则称为A1,A2,An的交,记作:A1A2A n。2)概率与频率概概率率:可用一个小于或等于1的正数P(A)来表示事件A出现的可能性,P(A)就称为事件A的概率。较大的可能性用较大的数字来标志较小可能性的就用较小的数字来标志频频率率:当概率值不易求出时我们往往取频率作
4、为概率的近似值,频率的概念比较简单可以很方便地求出。3)贝叶斯定理条件概率条件概率:有时除了要知道事件的概率P(A)外,还需要知道在“事件B已出现”的条件下,事件A出现的条件概率P(A|B)。例如,我们需要知道在某疾病B发生条件下,症状A出现的概率时就要计算条件概率 P(A|B)。贝叶斯定理nP(Di|S)=P(Di)P(S|Di)/P(Di)P(S|Di)i=1D1,D2,Dn分别表示n种互斥的疾病,Di为第i个疾病;P(Di)为Di的先验概率(疾病发生的概率)。S为用于这些疾病鉴别诊断的某一临床表现或检验结果的组合(症候)P(S|Di)为疾病Di的症状S发生的概率;P(Di|S)为症状S提
5、示疾病Di发生的概率(后验概率)先验概率,表示医生在具体诊断某患者前所掌握的疾病Di的发病情况。P(S|Di)为在已知疾病Di条件下,各症状S出现的“条件概率”,即某临床症候A的可能性,它可以通过收集足够数量的病例容易地得到。P(Di|S)称为后验概率,表示在患者症状S出现时,患疾病Di的可能性。对于两个或更多个症状存在的情况,仍可用贝叶斯(Bayes)公式计算。在各个症状彼此独立前提下,则各个症状同时出现的概率是各自单独出现时其概率的乘积。因此假设各症状互相独立,贝叶斯(Bayes)公式可写为:在运用贝叶斯模型时须要注意的问题模型中j种疾病互斥,先验概率之和要为l(即要构成一个完整的疾病群)
6、.先验概率的确定。参考文献报道和历史资料统计频率作为近似估计。条件概率的确定。用于鉴别诊断的症候指标是互相独立无关的。当计算出各后验概率P(Hj|A)后,作为临床判断的依据只有当P(Hj|A)(jl,2,,n)间差距达五倍以上时方可下结论,或是当某一后验概率值达085才下结论。应用举例一:如对某地区1207位阑尾炎思考的资料统计为表3-1。按慢性阑尾炎、急性阑尾炎、阑尾炎穿孔三类统计症候频率(腹痛开始部位、恶心呕吐、大便、体温、体征及体检结果)。若已知慢性阑尾炎H1、急性阑尾炎H2、阑尾炎穿孔H3发生的先验概率分别为:P(H1)0.391 P(H2)0.493 P(H3)0.116现有一阑尾炎
7、患者、开始上腹痛,之后呕吐,腹泻,人院体温37全身腹肌紧张,压痛,WBC(白细胞)数达19350。显然其症侯为BB13B23B33B42B51B61B73,则其P(Hj|B)(jl,2,3,4)的大小可通过公式算得。其中,P(B|Hj)P(B13B23B33B42B51B61B73|Hj)P(B13|Hj)P(B23|Hj)P(B33|Hj)P(B42|Hj)P(B51|Hj)P(B61|Hj)P(B73|Hj)(j=l,2,3)P(B|H1)94510-8 P(H1)P(B|H1)0351945 10-8 3695 10-8 同理P(H2)P(B|H2)=5.53 10-5 P(H3)P(B
8、|H3)=1.136 10-4得:P(H1|B)=0.02%P(H2|B)=32.2%P(H3|B)=67.76%所以:诊断为阑尾炎穿孔(H3).得:P(H1|B)=0.02%P(H2|B)=32.2%P(H3|B)=67.76%所以:诊断为阑尾炎穿孔(H3).2.最大似然诊断模型在前述过程中,如果假定各疾病发生的先验概率是等同的,此时贝叶斯公式可简化。P(Hj|A)的相对大小完全取决于条件概率P(A|Hj)的相对大小,分母部分总是一致的。这个结果表明,在先验概率相同的假设基础上,计量决策诊断的基本判别依据,可以转化为P(A|Hj)。这种以条件概率 P(A|Hj)为判别依据的模式为似然诊断模型
9、。临床的实用中常常把似然诊断模型进一步简化为评分法。3、贝叶斯临床决策系统设计实现贝叶斯模型与传统医生诊断的差异贝叶斯条件概率决策诊断模型及最大似然诊断模型使用时必须预先知道所规定的全部征候表现,然后再进行综合分析、判断。临床医师的诊断过程常是根据已掌握的病人的临床表现,结合自己的知识与经验进行分析、判断和逐步问诊、检查后再分析及再判断,直至有足够把握作出结论。贝叶斯逐步问诊模型就是仿效这种过程,进行逐步提问和逐步分析的计量诊断模型。举例二:中风部位诊断。基础资料:在因中风造成死亡的病例中选择发作后24小时仍处于昏迷状态的47例为对象(62岁-87岁)。方法:在中风即刻到24小时内患者所表现的
10、症状中选择六项症状进行研究:S1:呕吐S2:陈施氏呼吸S3:发作后血压上升到200mmHg以上S4:单侧麻痹S5:对光反射减弱或消失S6:心房颤动诊断疾病分类:G1:大脑前、中动脉支配区域的出血与下丘脑出血G2:小脑出血与蛛网膜下腔出血G3:大脑中动脉支配区域的栓塞诊断表编制步骤:对47例病人按G1,G2,G3三类分组,计算出各组内每一症状出现的频率。由于标本数不太多,所以症状出现率为0时以0.01表示,出现率为1时以0.99表示。某患者出现的症状为S1,S3,S4,S5,而S2和S6症状没有出现,根据表2-7可分别计算出该患者分属三类的似然函数。于是,LG1 0.83(1-0.08)0.54
11、0.830.79(1-0.01)=0.27LG20.83(1-0.01)0.170.330.83(1-0.01)=0.04LG30.29(1-0.18)0.010.990.24(1-0.35)=0.0005比较上面三个似然函数的大小,最大函数为LG1,因而可以判断患者所得的病名属于G1类:大脑前、中动脉支配区域出血。判断实验结果在验证实验结果时除了上述47例外,还利用了原来没有考虑的脑干出血3例,脑干栓塞1例,其结果见表2-8,由表可知:病理诊断为G1类计24例,计量诊断符合20例;病理诊断为G2类计6例,计量诊断符合4例;病理诊断为G3类计17例,计量诊断符合16例。若将病理诊断G1与G2合
12、并后分为出血类(G1+G2)和栓塞类(G3)二大类,则病理诊断G1+G2类计30例计量诊断符合28例;栓塞17例中符合16例;同时,3例脑于出血全部符合,只有l例脑干栓塞误分在G1类中。Byes理论的局限:难估计先验概率与条件概率条件之间线性无关早期医学决策使用2、决策树与决策分析启发式推理形成树型决策树(p178)决策树(de-cision tree)是一种能够有效地表达复杂决策问题的数学模型主诉腹部疼痛左上腹疼痛右上腹疼痛胆囊炎右下腹疼痛左下腹疼痛阑尾炎宫外孕卵巢囊肿扭转阑尾炎阑尾炎决策树由一些决策点、机会点和决策枝、机会枝组成。一般用圆圈“”表示机会点,发生的结果不在医师的控制之下;小方
13、框“”表示决策点,在决策点,医师必须在几种方案中选取一种;决策点相应的分枝称为决策枝;机会点相应的分枝称为机会枝。(P178图9-5)举例:决策树的应用:最可能患胰腺癌者包括40岁以上,中腹部疼痛持续13周的人。假设这类人中胰腺癌的发生率为12。如有一种不冒什么风险的早期诊断方法对胰腺癌的检出率为80(敏感度),但对有类似症状的非胰腺癌患者的假阳性率为5,用此法诊断确诊的胰腺癌患者手术死亡率为10,治愈率为45。根据上述疾病概率,诊断概率和死亡、治愈概率,如对1000人进行诊断、治疗,其所获得的益处,是否比不进行诊断检查和手术更大?可以用一个决策树(下图)进行分析比较。由JCSisson等人的
14、一个关于胰腺癌的决策树模型从以上决策树可见,不作该项检查的死亡者为12例,均为胰腺癌病人。用该项检查手术后死亡12.5人,其中有5例为非胰腺癌病人。而且新的检查使44例非胰腺癌患者的胰腺功能因手术而可能受到损害。因此这项检查对病人是弊大于利,不宜使用。3 符号推理和专家系统专家系统最成功的实例之一,是1976年美国斯坦福大学肖特列夫(Shortliff)开发的医学专家系统MYCIN,这个系统后来被知识工程师视为“专家系统的设计规范”。MYCIN系统采用产生式规则构建推理系统。4、神经网络和连接系统人工神经网络”(ARTIFICIAL NEURAL NETWORK,简称A.N.N.)是在对人脑组
15、织结构和运行机智的认识理解基础之上模拟其结构和智能行为的一种工程系统。人工神经网络首先要以一定的学习准则进行学习,然后才能工作。现以人工神经网络对手写“A”、“B”两个字母的识别为例进行说明,规定当“A”输入网络时,应该输出“1”,而当输入为“B”时,输出为“0”。所以网络学习的准则应该是:如果网络作出错误的的判决,则通过网络的学习,应使得网络减少下次犯同样错误的可能性。首先,给网络的各连接权值赋予(0,1)区间内的随机值,将“A”所对应的图象模式输入给网络,网络将输入模式加权求和、与门限比较、再进行非线性运算,得到网络的输出。在此情况下,网络输出为“1”和“0”的概率各为50%,也就是说是完
16、全随机的。第3节几个典型的医学决策支持系统1、MYCIN 系统MYCIN主要用于协助医生诊断脑膜炎一类的细菌感染疾病。在MYCIN的知识库里,大约存放着450条判别规则和1000条关于细菌感染方面的医学知识。它一边与用户进行对话,一边进行推理诊断。它的推理规则称为“产生式规则”,类似于:“IF(打喷嚏)OR(鼻塞)OR(咳嗽),THEN(有感冒症状)”这种医生诊断疾病的经验总结,最后显示出它“考虑”的可能性最高的病因,并以给出用药的建议而结束。2 INTERNIST-1 和QMR系统INTERNIST-1系统是由Pittsburg医科大学开发的用于内科疾病诊断咨询系统。通过疾病症状来推理疾病。
17、收集了600多种疾病的诊断知识,4500多临床表现。给出诊断疾病的相关参数:相关频率:在某种疾病中某临床症状发生的频率。提示力度:某症状对疾病存在的提示强度。处理用户输入的临床表现,得出一组诊断建议。移植到微机上,称QRM(Quick Medical Reference)3、HELP系统(Health Evaluation through Logical Processing)基于知识框架技术,专用开发语言-HELP FRAME LANGUAGE帮助医护人员分析解释处理临床数据。呼吸系统疾病实验检查异常结果判断传染病监控用药合理性检查HELPHELP系统的处方控制系统的处方控制改变处方?登录主
18、诉并改变分发和评价yes医学知识库数据驱动的HELP系统药物合适?医疗药物医嘱护士输入药剂师输入历史过敏史等病人数据库接触医生yesnoyesno第4节管理决策支持与数据仓库技术1、管理决策简介基层管理:处理流程性工作中层管理:基层数据汇总、高层意见落实高层管理:决策传统管理决策:基于管理人员的经验、简单统计方法。管理分层结构图高层管理中层管理基层管理2、决策支持系统与数据仓库决策支持系统(DSS):从数据库中找出必要的数据,并利用数学模型的功能,为用户产生所需的信息。数据仓库和数据挖掘数据仓库:是一个面向主题的、集成的、稳定的、包含历史数据的数据集合。它用于支持经营管理中的决策制定过程。数据
19、仓库的概念对收集不同来源的数据从新的角度提出了一种新的结构方法数据仓库的根本任务:把信息加以整理归纳并及时提供给管理决策人员。主要作用:提供报表和图表、支持多维分析、数据挖掘的基础。数据仓库的主题:是指用户使用数据仓库进行决策时所关心的重点方面。面向主题:数据仓库内的信息是按主题进行组织,为按主题进行决策的过程提供信息。集成:指信息是经过系统加工、汇总和整理。稳定:数据进入数据仓库后,将长期被保留。包含历史数据:从过去某一时点到目前的各个阶段的信息。数据挖掘:所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。数据挖掘与传统分析工具不
20、同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。第一步是描描述述数据-计算统计变量(比如平均值、均方差等),再用图表或图片直观的表示出来,进而可以看出一些变量之间的相关性(比如有一些值经常同时出现)。历史数据建建立立一一个个预预言言模模型型,然后再用另外一些数据对这个模型进行测测试试。验证验证你的模型 数据仓库系统的四个层次体系结构:(1)数据源:整个系统的数据源泉(2)数据的存储与管理:不同于传统的数据库,决定了外部数据的表现形式。大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖掘库或数据集市中。数据源数据仓库各分公司数据集市分析数据集市数据挖掘数
21、据集市图1:数据挖掘库从数据仓库中得出数据挖掘库可能是你的数据仓库的一个逻辑上的子集,而不一定非得是物理上单独的数据库。可以把一个或几个事务数据库导到一个只读的数据库中,就把它当作数据集市,然后在他上面进行数据挖掘。数据源数据挖掘库图2:数据挖掘库从事务数据库中得出联机分析处理(OLAP):对分析需要的数据进行有效集成,按多维模型进行组织,以便进行多角度、多层次的分析,并发现趋势。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。(4)前端工具:报表工具、
22、数据分析工具、查询工具、数据挖掘工具。(P183图9-7)3、数据挖掘中常用技术(1)传统主观导向系统采用的方法从简单的走向分析直至高深数学基础的分析理论。这种技术需要有经验模型为前提.属于这类商品有美国的Metastak,SuperCharts,CandlestickForecaster和WallStreetMoney等(2)传统的数据分析这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。属于这类商品有美国的SAS,SPSS和Stargraphis等。(3)神经元网络(NN)技术当需要复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特
23、别有效。经过训练后的NN可以想像具有某种专门知识的“专家”,因此可以像人一样从经验中学习。NN有多种结构,但最常用的是多层BP(backpropagation)模型。它已广泛地应用于各种DM(KDD)工具和软件中。有些是以NN为主导技术,例如俄罗斯的PolyAnalyst,美国的BrainMaker,Neurosell和OWL等神经网络概念神经网络概念神经网络:泛指生物神经网络与人工神经网络。生物神经网络:指由中枢神经系统及周围神经系统所构成的错综复杂的神经网络,它负责对动物机体各种活动的管理,其中最重要的是脑神经系统。人工神经网络:指模拟人脑神经系统的结构和功能,运用大量的处理部件,由人工方
24、式建立起来的网络系统。NN技术概要NN结构:可以把一个神经网络划分为输入层、输出层和隐含层。输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。隐含层:在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。在系统中采用这种方法的有美国的IDIS,法国的SIPINA。英国的Clementinc和澳大利亚的C5.0。(4)决策树决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。比如,在贷款申请中,要对申请的风险大小做出判断,
25、图7是为了解决这个问题而建立的一棵决策树,从中我们可以看到决策树的基本组成部分:决策节点、分支和叶子。决策树结构:决策树结构:每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。建立决策树的过程建立决策树的过程:即树的生长过程是不断的把数据进行切分的过程,每次切分对应一个问题,也对应着一个节点。对每个切分都要求分成的组之间的“差异”最大。训练
26、过度训练过度:对最终要拿给人看的决策树来说,在建立过程中让其生长的太“枝繁叶茂”是没有必要的,这样既降低了树的可理解性和可用性,同时也使决策树本身对历史数据的依赖性增大,也就是说这是这棵决策树对此历史数据可能非常准确,一旦应用到新的数据时准确性却急剧下降,我们称这种情况为训练过度。解决办法:是设定决策树的最大高度(层数)来限制树的生长。是设定每个节点必须包含的最少记录数,当节点中记录的个数小于这个数值时就停止分割。树建立好之后对其进行修剪。先允许树尽量生长,然后再把树修剪到较小的尺寸,当然在修剪的同时要求尽量保持决策树的准确度尽量不要下降太多。思路是:系统自动生成有关目标变量对其他多种变量依赖
27、关系的务种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似于遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时。这种方法的商用产品还只见诸俄罗斯的PolyAnalyst。(5)进化式程序设计(6)基于事例的推理方法(DBR)当预测未来情况或进行正确决策时,系统寻找与现有情况相类似的事例,并选择最佳的相同的解决方案,这种方法能用于很多问题求解,并获得好的结果,其缺点是系统不能生成汇总过去经验的模块或规则。采用这种方法的系统有
28、美国的PatternRecognitionWorkbench和法国的KATEtools.(7)遗传算法遗传算法(Genetic Algorithm,GA)是近几年发展起来的一种崭新的全局优化算法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现各个个体的适应性的提高。这一点体现了自然界中物竞天择、适者生存的进化过程。在系统中包含遗传算法的有美国的GeneHunter.(8)非线性回归方法这种方法的基础是,在预定的函数的基础上,寻找目标度量对其它多种变量的依赖关系。这种方法在金融市场或医疗诊断的应用场合,比较好的提供可信赖的结果。在俄罗斯的PalyAnalyst以及美国的Neuroshell系统中包括了这种技术4、智能决策支持系统专家系统(定性)与决策支持辅助决策系统(定量)相结合。