《卫生统计学判别分析.ppt》由会员分享,可在线阅读,更多相关《卫生统计学判别分析.ppt(29页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十六章第十六章 观察对象的分类分析方法观察对象的分类分析方法-判别分析判别分析(Discriminant Analysis)1 主要有主要有判别分析判别分析和和聚类分析聚类分析 判别分析:事物的分类是清楚的,目的判别分析:事物的分类是清楚的,目的是通过已知分类建立判别函数,预测新的观是通过已知分类建立判别函数,预测新的观察对象所属类别。察对象所属类别。聚类分析:事物分类不清楚,分几类聚类分析:事物分类不清楚,分几类不清楚,目的希望将事物进行分类(探索性不清楚,目的希望将事物进行分类(探索性研究)。研究)。事物分类的统计方法:事物分类的统计方法:2 判别分析判别分析(discriminant
2、analysis)是在是在已知已知分为哪若干类的前提下分为哪若干类的前提下,通过现有数据通过现有数据建立判别方程(函数),根据对象若干个建立判别方程(函数),根据对象若干个指标的观测结果判定其应属于哪一类的多指标的观测结果判定其应属于哪一类的多元统计学方法。常用的判别分析的方法有元统计学方法。常用的判别分析的方法有Bayes判别、判别、Fisher判别、非参数判别、最判别、非参数判别、最大似然判别等。大似然判别等。当事先当事先并不知道并不知道观察对象应分为哪若干观察对象应分为哪若干类别时,采用类别时,采用聚类分析聚类分析方法进行分类。方法进行分类。一、判别分析的基本概念一、判别分析的基本概念3
3、 与聚类分析有所不同的是与聚类分析有所不同的是:判别分析法首先需要对所研究对象进判别分析法首先需要对所研究对象进行分类,进一步选择若干对观测对象能够行分类,进一步选择若干对观测对象能够较全面地描述的变量,建立判别函数。对较全面地描述的变量,建立判别函数。对一个未确定类别的个案只要将其代入判别一个未确定类别的个案只要将其代入判别函数就可以判断它属于哪一类总体。函数就可以判断它属于哪一类总体。4二、医学中的分类问题二、医学中的分类问题:1.疾病诊断疾病诊断例:用电感耦合等离子体发射光谱法测定肺例:用电感耦合等离子体发射光谱法测定肺癌患者和健康人尿液中的铬、铁、锰、铝、癌患者和健康人尿液中的铬、铁、
4、锰、铝、镉、铜、锌、镍镉、铜、锌、镍,用原子荧光光谱法测定硒。用原子荧光光谱法测定硒。对肺癌患者和健康人尿液中对肺癌患者和健康人尿液中9种微量元素进种微量元素进行判别分析行判别分析,为肺癌的早期诊断提供科学依为肺癌的早期诊断提供科学依据。据。-陈丹丹等陈丹丹等.对肺癌患者和健康人尿对肺癌患者和健康人尿液中液中9 9种微量元素的判别分析种微量元素的判别分析.药物分析杂志药物分析杂志.2009,29(6).5 预测病人的预后预测病人的预后(好或差好或差),提出早期提出早期治疗方法治疗方法,降低严重后果。降低严重后果。例如根据新生儿出生后例如根据新生儿出生后1 分钟阿氏评分分钟阿氏评分(X1)、窒息
5、复苏时间、窒息复苏时间(X2)、惊厥持续天数、惊厥持续天数(X3)、急性期、急性期CT 改变改变(X4)及治疗及治疗3 天后原始反射天后原始反射情况情况(X5)判别新生儿缺血缺氧性脑病的预后判别新生儿缺血缺氧性脑病的预后(脑性瘫痪脑性瘫痪、严重智能低下、正常)。、严重智能低下、正常)。2.疾病的预测疾病的预测6 用途:通过数据建立判别方程用途:通过数据建立判别方程,对研究对研究事物进行分类和预测。事物进行分类和预测。对资料要求:对资料要求:要求建立方程的观察对象分类(要求建立方程的观察对象分类(y)已经明确(用金标准确定),收集建模对已经明确(用金标准确定),收集建模对象(训练样本)的象(训练
6、样本)的m个变量(个变量(x)建立判别)建立判别方程。方程。三、判别分析的特点三、判别分析的特点7根据自变量(根据自变量(x)资料性质:)资料性质:自变量(自变量(x)为定量数据:)为定量数据:Fisher判别、判别、Bayes判别(判别(SPSS、SAS统计软件可实现)。统计软件可实现)。自变量(自变量(x)为定性数据为定性数据:最大似然判别法、最大似然判别法、Bayes公式判别公式判别(统计软件(统计软件不能自动实现不能自动实现)。)。四、判别分析建模的方法四、判别分析建模的方法8五、判别分析方法的基本步骤五、判别分析方法的基本步骤1.建立判别函数建立判别函数(方程方程)2.规定判别(分类
7、)准则规定判别(分类)准则 判别新个体为某类判别新个体为某类 3.评价判别方程的效果评价判别方程的效果9 主要用于定量数据的两类或多类判别主要用于定量数据的两类或多类判别.Bayes判别的思想:判别的思想:基于基于Bayes准则,假定已知各类出现的先验准则,假定已知各类出现的先验概率概率P(Yk),且各类变量近似服从多元正),且各类变量近似服从多元正态分布,获得态分布,获得Bayes判别函数。计算各个体出判别函数。计算各个体出现的后验概率进行判别。现的后验概率进行判别。第一节第一节 Bayes判别判别10 一、分析步骤一、分析步骤1.筛选判别指标筛选判别指标 选择其中选择其中相互独立的部分指标
8、相互独立的部分指标建立建立判别函数判别函数.在建立判别函数之前,要先进行逐在建立判别函数之前,要先进行逐步判别分析,筛选出主要的判别指标,步判别分析,筛选出主要的判别指标,然后再对主要的判别指标作判别分析然后再对主要的判别指标作判别分析.SAS中的中的STEPDISC过程用来筛选判别指标过程用来筛选判别指标,用用Wilks Lambda统计量及对应统计量及对应P值来衡量值来衡量.11决定某变量是否入选决定某变量是否入选:以已进入以已进入模型的变量作为协变量模型的变量作为协变量,将待,将待考察的某变量作为考察的某变量作为应变量应变量,以,以各类别作为各类别作为对比组对比组,采用协方差分析来判断扣
9、除协变,采用协方差分析来判断扣除协变量的影响后,待考察的变量在各类别间有量的影响后,待考察的变量在各类别间有无差别。如果有差别,待考察的变量可进无差别。如果有差别,待考察的变量可进入方程;反之,则不能入选。入方程;反之,则不能入选。12协方差分析:协方差分析:将对应变量将对应变量Y有线性影响有线性影响但未加控制或难以控制的定量变量但未加控制或难以控制的定量变量X看看做协变量,把做协变量,把X化为相等后比较各组化为相等后比较各组Y的修正均数,是线性回归与方差分析结的修正均数,是线性回归与方差分析结合起来的一种统计分析方法。模型中无合起来的一种统计分析方法。模型中无任何变量时即为方差分析。任何变量
10、时即为方差分析。132.建立建立Bayes判别函数判别函数 已知判别对象分为已知判别对象分为g类类,有有m个判别指标个判别指标Xj(j=1,2,m),要求各类的要求各类的m个判别指标个判别指标均近似服从多元正态分布。当各类的协方差均近似服从多元正态分布。当各类的协方差矩阵相等时矩阵相等时,计算合并协方差矩阵计算合并协方差矩阵,表示判别表示判别指标指标Xi、Xj的合并协方差的合并协方差,按公式(按公式(16-1)计)计算。算。14 表示第表示第k类中变量类中变量Xi、Xj的均数的均数;nk为第为第k类的例数类的例数 15求解求解 (k=1,2,g)由由16计算计算 为第为第k k类类(k=1,2
11、,g)(k=1,2,g)出现的出现的先验概先验概率率,当不知道各类的先验概率时当不知道各类的先验概率时,一般取等一般取等概率概率1/g,1/g,也可取频率也可取频率 (当样本较大且当样本较大且无选择性偏倚无选择性偏倚)。17建立线性建立线性Bayes判别函数:判别函数:(j=0,1 2,m;k=1,2,g)为需要估)为需要估计的参数,用计的参数,用SAS的的 DISCRIM过程可得到这过程可得到这些参数的估计值。些参数的估计值。18 当各类的协方差阵不等时,应计算非当各类的协方差阵不等时,应计算非线性线性二次型二次型Bayes判别函数判别函数,在,在SAS的的DISCRIM过程名后加选项过程名
12、后加选项POOL=TEST,SAS先经过检验,若各类先经过检验,若各类的协方差阵满足齐性的协方差阵满足齐性,则合并且给出线则合并且给出线性性Bayes判别函数;若各类的协方差阵判别函数;若各类的协方差阵不满足齐性不满足齐性,则不合并则不合并,且自动用非线性且自动用非线性二次型二次型Bayes判别函数取代线性判别函数取代线性Bayes判判别函数。别函数。193.确定判别规则确定判别规则 (1)(1)按判别函数值判别按判别函数值判别:对每一个判别对对每一个判别对象象,将其将其m m个判别指标的取值分别代入个判别指标的取值分别代入g g个判别个判别函数函数,计算判别函数值计算判别函数值,将判别对象判
13、为将判别对象判为函数函数值最大值最大的哪一类。的哪一类。(2)(2)按后验概率判别按后验概率判别:按公式计算每一个按公式计算每一个判别对象属于第判别对象属于第k k类的后验概率类的后验概率,将该判别对将该判别对象判为后验概率值最大的那一类。象判为后验概率值最大的那一类。其中其中20二、应二、应 用用 实实 例例 例例例例16161 1 脑中风是急诊医学中较为常见的严重疾脑中风是急诊医学中较为常见的严重疾脑中风是急诊医学中较为常见的严重疾脑中风是急诊医学中较为常见的严重疾病,一般分为脑出血和脑缺血两类,对中风类型的病,一般分为脑出血和脑缺血两类,对中风类型的病,一般分为脑出血和脑缺血两类,对中风
14、类型的病,一般分为脑出血和脑缺血两类,对中风类型的早期正确诊断具有十分重要的临床意义。目前,医早期正确诊断具有十分重要的临床意义。目前,医早期正确诊断具有十分重要的临床意义。目前,医早期正确诊断具有十分重要的临床意义。目前,医生临床分类诊断的正确率只有生临床分类诊断的正确率只有生临床分类诊断的正确率只有生临床分类诊断的正确率只有7070左右;以头颅左右;以头颅左右;以头颅左右;以头颅CTCT和核磁共振检查诊断较为可靠,但其价格昂贵;且和核磁共振检查诊断较为可靠,但其价格昂贵;且和核磁共振检查诊断较为可靠,但其价格昂贵;且和核磁共振检查诊断较为可靠,但其价格昂贵;且因因因因CTCT和核磁共振检查
15、需搬动病人,易加重病情;尤和核磁共振检查需搬动病人,易加重病情;尤和核磁共振检查需搬动病人,易加重病情;尤和核磁共振检查需搬动病人,易加重病情;尤其是其是其是其是CTCT和核磁共振检查对早期脑缺血常出现假阴性。和核磁共振检查对早期脑缺血常出现假阴性。和核磁共振检查对早期脑缺血常出现假阴性。和核磁共振检查对早期脑缺血常出现假阴性。我们收集了某医院近年我们收集了某医院近年我们收集了某医院近年我们收集了某医院近年7878例脑中风病人的数据见表例脑中风病人的数据见表例脑中风病人的数据见表例脑中风病人的数据见表16162,2,判别指标与分类变量判别指标与分类变量判别指标与分类变量判别指标与分类变量(以头
16、颅以头颅以头颅以头颅CTCT和核磁共振和核磁共振和核磁共振和核磁共振检查诊断为依据检查诊断为依据检查诊断为依据检查诊断为依据)见表见表见表见表16161 1。21表表表表16161 1脑中风病人判别指标与分类变量脑中风病人判别指标与分类变量脑中风病人判别指标与分类变量脑中风病人判别指标与分类变量 变变变变量量量量意意意意义义义义赋值赋值赋值赋值(单单单单位)位)位)位)变变变变量量量量意意意意义义义义赋值赋值赋值赋值(单单单单位位位位)X1X1X1X1性性性性别别别别男男男男1 1 1 1,女,女,女,女=2=2=2=2X13X13X13X13感感感感觉觉觉觉障碍障碍障碍障碍有有有有=1,=1
17、,=1,=1,无无无无=2=2=2=2X2X2X2X2年年年年龄龄龄龄岁岁岁岁X14X14X14X14发发发发病状病状病状病状态态态态激激激激动动动动=1,=1,=1,=1,运运运运动动动动=2,=2,=2,=2,一一一一般情况般情况般情况般情况=3,=3,=3,=3,睡眠或安睡眠或安睡眠或安睡眠或安静静静静=4=4=4=4X3X3X3X3收收收收缩压缩压缩压缩压kpkpkpkpa a a aX15X15X15X15起病方式起病方式起病方式起病方式急性急性急性急性=1,=1,=1,=1,慢性慢性慢性慢性=2=2=2=2X4X4X4X4舒舒舒舒张压张压张压张压kpkpkpkpa a a aX16
18、X16X16X16BabinskiBabinskiBabinskiBabinski症症症症阳性阳性阳性阳性=1,=1,=1,=1,阴性阴性阴性阴性=2=2=2=2X5X5X5X5恶恶恶恶心心心心,呕吐呕吐呕吐呕吐有有有有=1,=1,=1,=1,无无无无=2=2=2=2X17X17X17X17风风风风心病史心病史心病史心病史有有有有=1,=1,=1,=1,无无无无=2=2=2=2X6X6X6X6意意意意识识识识清醒清醒清醒清醒=1,=1,=1,=1,嗜睡嗜睡嗜睡嗜睡=2,=2,=2,=2,昏迷昏迷昏迷昏迷=3=3=3=3X18X18X18X18心心心心脏杂脏杂脏杂脏杂音音音音有有有有=1,=1,
19、=1,=1,无无无无=2=2=2=2X7X7X7X7瞳孔大小瞳孔大小瞳孔大小瞳孔大小等大等大等大等大=1,=1,=1,=1,不等大不等大不等大不等大=2=2=2=2X19X19X19X19全血粘度全血粘度全血粘度全血粘度/高切高切高切高切mpmpmpmpa a a assssX8X8X8X8针针针针尖尖尖尖样样样样瞳孔瞳孔瞳孔瞳孔有有有有=1,=1,=1,=1,无无无无=2=2=2=2X20X20X20X20全血粘度全血粘度全血粘度全血粘度/低切低切低切低切mpmpmpmpa a a assssX9X9X9X9对对对对光反射光反射光反射光反射存在存在存在存在=1,=1,=1,=1,不存在不存在
20、不存在不存在=2=2=2=2X21X21X21X21血血血血桨桨桨桨粘度粘度粘度粘度mpmpmpmpa a a assssX10X10X10X10语语语语言障碍言障碍言障碍言障碍有有有有=1,=1,=1,=1,无无无无=2=2=2=2X22X22X22X22血沉血沉血沉血沉毫米毫米毫米毫米/小小小小时时时时X11X11X11X11颈项颈项颈项颈项强强强强直直直直有有有有=1,=1,=1,=1,无无无无=2=2=2=2X23X23X23X23血球血球血球血球压积压积压积压积X12X12X12X12瘫痪瘫痪瘫痪瘫痪有有有有=1,=1,=1,=1,无无无无=2=2=2=2g g g g分分分分类变类
21、变类变类变量量量量脑脑脑脑出血出血出血出血=1,=1,=1,=1,脑脑脑脑缺血缺血缺血缺血=2=2=2=222表表表表16-216-2某医院近年某医院近年某医院近年某医院近年7878例脑中风病人判别指标例脑中风病人判别指标例脑中风病人判别指标例脑中风病人判别指标与分类变量数据与分类变量数据与分类变量数据与分类变量数据序号序号序号序号X1X1X1X1X2X2X2X2X3X3X3X3X4X4X4X4X5X5X5X5X6X6X6X6X7X7X7X7X8X8X8X8X9X9X9X9X10X10X10X10X11X11X11X11X12X12X12X12X13X13X13X13X14X14X14X141
22、 1 1 11 1 1 17272727220202020101010102 2 2 21 1 1 11 1 1 12 2 2 21 1 1 11 1 1 12 2 2 21 1 1 12 2 2 22 2 2 22 2 2 21 1 1 17171717118181818121212121 1 1 12 2 2 21 1 1 12 2 2 21 1 1 11 1 1 12 2 2 21 1 1 12 2 2 23 3 3 33 3 3 32 2 2 27070707020202020121212121 1 1 13 3 3 31 1 1 12 2 2 21 1 1 11 1 1 12 2 2
23、 21 1 1 12 2 2 22 2 2 24 4 4 41 1 1 15454545421212121151515152 2 2 23 3 3 31 1 1 12 2 2 21 1 1 11 1 1 11 1 1 11 1 1 12 2 2 24 4 4 4-767676761 1 1 17272727220202020101010102 2 2 21 1 1 11 1 1 12 2 2 21 1 1 11 1 1 12 2 2 21 1 1 12 2 2 22 2 2 277771 17171181812121 12 21 12 21 11 12 21 12 23 378782 2707
24、0202012121 13 31 12 21 11 12 21 12 22 223表表16-2 横向续表横向续表 序号序号序号序号X15X15X15X15X16X16X16X16X17X17X17X17X18X18X18X18X19X19X19X19X20X20X20X20X21X21X21X21X22X22X22X22X23X23X23X23g g g g1 1 1 11 1 1 12 2 2 22 2 2 22 2 2 25.6715.6715.6715.6719.4939.4939.4939.4931.8751.8751.8751.8754242424232.032.032.032.01
25、 1 1 12 2 2 21 1 1 11 1 1 12 2 2 22 2 2 26.1446.1446.1446.14412.63012.63012.63012.6302.0212.0212.0212.0214747474724.024.024.024.01 1 1 13 3 3 31 1 1 11 1 1 12 2 2 22 2 2 26.0406.0406.0406.0408.0568.0568.0568.0562.0002.0002.0002.0004040404035.035.035.035.01 1 1 14 4 4 41 1 1 12 2 2 22 2 2 22 2 2 29.9
26、939.9939.9939.99321.19021.19021.19021.1901.8701.8701.8701.870616161611.01.01.01.01 1 1 15 5 5 51 1 1 12 2 2 22 2 2 22 2 2 25.4905.4905.4905.4906.2106.2106.2106.2101.7001.7001.7001.70040404040232323231 1 1 1-767676761 1 1 12 2 2 22 2 2 22 2 2 25.6715.6715.6715.6719.4939.4939.4939.4931.8751.8751.8751.
27、8754242424232.032.032.032.01 1 1 1777777771 1 1 11 1 1 12 2 2 22 2 2 26.1446.1446.1446.14412.63012.63012.63012.6302.0212.0212.0212.0214747474724.024.024.024.01 1 1 1787878781 1 1 11 1 1 12 2 2 22 2 2 26.0406.0406.0406.0408.0568.0568.0568.0562.0002.0002.0002.0004040404035.035.035.035.01 1 1 124三、三、SA
28、S程序及结果解释程序及结果解释1.逐步判别分析逐步判别分析SAS程序程序 datadatastepdiscli16_1;input X1stepdiscli16_1;input X1X23 g;X23 g;cards;cards;1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 132 12 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000
29、40 2 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 135 1;proc stepdisc proc stepdisc/*/*调用逐步判别分析过程调用逐步判别分析过程调用逐步判别分析过程调用逐步判别分析过程stepdisc*/stepdisc*/sle=0.2 sls=0.2;sle=0.2 sls=0.2;/*/*选入、剔除变量的概率临界值均定为选入、剔除变量的概率临界值均定为选入、剔除变量的概率临界值均定为选入、剔除变量的概率临界值均定为0.2*/0.2*/class g;var X1-X23;run;clas
30、s g;var X1-X23;run;25data discrimli16_1;input X1-X23 g;data discrimli16_1;input X1-X23 g;cards;cards;1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 132 12 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 2 70 20 12
31、1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 135 1;proc discrim /*proc discrim /*调用调用调用调用SASSAS判别分析过程判别分析过程判别分析过程判别分析过程discrim*/discrim*/distance distance /*/*计算两类别平方距离计算两类别平方距离计算两类别平方距离计算两类别平方距离*/*/manova /*manova /*对判别效能作假设检验对判别效能作假设检验对判别效能作假设检验对判别效能作假设检验*/*/listerr;/*listerr;/*列出判错的样本信息列出判
32、错的样本信息列出判错的样本信息列出判错的样本信息*/*/class g;class g;var x9 x6 x17 x16 x21 x13 x10 x4 x7 x15 x12 x5 x3;run;var x9 x6 x17 x16 x21 x13 x10 x4 x7 x15 x12 x5 x3;run;判别分析判别分析SAS程序程序26第二节第二节 非参数判别分析非参数判别分析 当各类的当各类的m个判别指标不服从多个判别指标不服从多元正态分布时,应采用非参数判别元正态分布时,应采用非参数判别分析分析.27一、一、SAS程序程序 非参数判别分析非参数判别分析SAS程序在过程程序在过程discri
33、m后加入选项后加入选项method=npar,采用,采用k个最近邻法,个最近邻法,k的个数需经多的个数需经多次调试方可获得最好的判别效果次调试方可获得最好的判别效果.28data li16_1;input x1-x23 g;data li16_1;input x1-x23 g;cards;cards;1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1 72 20 10 2 1 1 2 1 1 2 1 2 2 1 2 2 2 5.671 9.493 1.875 42 32 11.875 42 32 12 70 20 12 1 3 1 2 1
34、1 2 1 2 2 1 1 2 2 6.040 8.056 2 70 20 12 1 3 1 2 1 1 2 1 2 2 1 1 2 2 6.040 8.056 2.000 40 35 12.000 40 35 1;proc discrim method=npar/*proc discrim method=npar/*采用非参数判别分采用非参数判别分采用非参数判别分采用非参数判别分 析方法析方法析方法析方法*/*/k=4 /*k=4 /*采用采用采用采用4 4个最近邻法个最近邻法个最近邻法个最近邻法*/*/corsslisterr;/*corsslisterr;/*交叉验证交叉验证交叉验证交叉验证*/*/class g;class g;29