《多元统计分析-常用统计量及均向量的统计推断.ppt》由会员分享,可在线阅读,更多相关《多元统计分析-常用统计量及均向量的统计推断.ppt(84页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析多元统计分析蒋蒋 敏敏卫生统计学教研室卫生统计学教研室多元分析常用统计量与均向量的统计推断 为什么要学多元分析?事物间的关系是错综复杂的,多元的;研究本身是多因素的;应用多元分析获取更丰富的信息;提高论文的档次。多元统计分析有哪些应用比较关系预测分类评价比较比较比较不同地区儿童生长发育情况不同种族正常人头发中微量元素的含量不同组别的IgG,IgM,IgA,IgE不同组别的CD2,CD3,CD4,CD8,CD4/CD8关系 探索病因校正混杂因素调整基线 探讨巯基丁氨酸(homocysteine)与血压、冠心病的关系,需调整年龄、性别、种族、已知的与冠心病有关的其他因素。探索与预后有关
2、的因素 影响黑色素瘤患者的生存时间的因素:年龄、性别、病灶部位、浸润深度预测 疾病预后的预测是否会患某病的预测哪些人更容易患糖尿病?年龄、家族史、工作性质、BMI、腰臀比等;乳腺癌患者手术后的生存时间?年龄、家族史、并发症、复发、化疗等;法医鉴定中死亡时间的推算:根据尸体的直肠温度、环境温度、停尸物的质地等。分类计算机辅助诊断系统临床诊断病毒鉴别胸痛患者如何快速诊断(是否急性心肌缺血?)对体形进行分类,制作服装对口腔牙列进行分类,预制牙列评价综合评价医院效益评价卫生投入产出评价健康状况评价各种应用对应的多元统计分析方法比较:多元方差分析关系:回归模型预测:回归模型分类:聚类分析与判别分析、回归
3、模型评价:主成分分析与因子分析回归:多元线性回归、logisitic回归、Cox回归、Poisson回归4 多元分析的主要内容均向量的统计量推断Hotelling T 2multivariate analysis of variance(MANOVA)多元线性回归(multivariate linear regression)主成分分析(principal component analysis)因子分析(factor analysis)聚类分析(cluster analysis)判别分析(discriminant analysis)本课程的要求上机做练习,分析实际资料学会看文献,判断统计分析的
4、应用是否正确统计软件SAS,或Stata考试:平时作业与考勤期末考试:闭卷第一讲内容:多元分析常用统计量多元T 检验多元方差分析多元分析常用统计量均向量方差、协方差矩阵离均差平方和与离均差积和矩阵相关系数矩阵例1.1 调查某地16岁中学生12名,其身高、体重和胸围资料见下表。单变量时,对每个变量分别计算 和 。多变量时,则计算每个变量的均数、方差以及变量间的协方差和相关系数。为了清晰表达多变量间的关系,常用矩阵(matrix)表示。构成矩阵的每个数据称为元素(element)。这里称为均向量、方差协方差矩阵。1.1均向量(means vector)将各变量的均数用矩阵形式排列,称为均向量。如本
5、例均向量为三维列向量:其转置向量为三维行向量:更一般地:样本均向量为:总体均向量为:1.2 方差、协方差矩阵方差:变量自身的变异;协方差:变量与另一变量的协同变异(即:一个变量随另一个变量变化的关系)。方差、协方差矩阵:将各指标的方差、协方差用矩阵的形式排列,得方差-协方差矩阵(variance-covariance matrix),简称协方差阵(covariance matrix),用字母V表示。本例:第1个变量方差为:本例共三个方差:v22=69.6288 v33=35.3239 第1个变量与第2个变量的协方差为:本例共三个协方差。v13=v31=32.2318v23=v32=45.465
6、9样本协方差阵vij=vji,协方差阵是对角阵 一般地,如n个观察单位测量了m个变量,则样本协差阵为维的对称阵。记为:对角线两侧为变量间的协方差:,可见,方差为协方差的特例,或协方差为更一般的形式。其中:对角线上为各变量的方差:,总体协方差阵1.3离均差平方和与离均差积和矩阵 将各变量的离均差平方和与离均差积和用矩阵排列,该矩阵称为离差阵(SSCP)。用SS或L表示。与V的关系为:或1.4相关系数阵 X1与X2的相关系数为:变量本身的相关系数为1,因此:将各变量间的相关系数用矩阵形式排列,称相关阵。记为R(See P.3)。一般地,n个观察对象有m个 变量,则有mm维的样本相关阵:其中:cor
7、relation coefficients matrix 如事先对每个变量做标准化变换,则变换后变量的协差阵等于原变量的相关阵。离差和离差积和相关系数矩阵502.9464 553.9831354.5498 0.8926765.9168550.1249 0.8020 0.9168388.56293 多元正态分布的性质二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面(11=1,22=1,12=0)二元正态分布曲面(11=2,22=4,12=0.75)二元正态分布曲面(11=2,22=4,12=0.75)医用多元统计分析方法二元正态分布曲面(11=2,22=4,12=0.75)二元正
8、态分布曲面剖面(11=1,22=1/2,12=0.75)m元正态分布的性质每一个变量均服从正态分布。变量的线性组合服从正态分布。m 元正态分布中的任意 k(0km)个变量服从 k 元正态分布。m元正态分布的条件分布仍服从正态分布。协方差为0的变量间相互独立。二元正态相关变量的参考值范围 身 高(cm)体重(kg)多元T检验多元配对设计均向量检验多元成组设计两样本的均向量检验多元方差分析多元成组设计资料的分析多元区组设计资料的分析多元方差分析的正确应用2.均向量的统计推断2.1多元T检验(Hotelling 检验)(1)Student-t 检验的简单回顾 检验一样本是否来自某已知总体,检验水准为
9、 检验两样本是否来自同一总体检验两样本是否来自同一总体 在许多医学问题中,做假设检验时在许多医学问题中,做假设检验时(如检验两样如检验两样本是否来自同一总体时本是否来自同一总体时)所依据的指标可能不只一个。所依据的指标可能不只一个。例如:例如:儿童生长发育:身高、体重、头围、胸围 血压:收缩压、舒张压 甲状腺功能:血脂:总胆固醇、甘油三酯 风湿或类风湿:血沉、抗“O”、WBC计数若仍用t 检验,有几个问题:重复进行t 检验,增加犯I 型错误的概率。忽略了变量间的相互联系。t 检验结果不一致时,难以下一个综合结论。例如,本例只有出现下列情况之一,才可作出明确判断:两组间的差别均有统计学意义,且大
10、小趋势一致(三项指标都是值越大,病情越差);两组间各指标的差别均无统计学意义。反之,出现下列情况之一,则难以得出明确结论:两组间各指标的差别具有统计学意义,但趋势不一致;两组间有些指标差别有统计学意义(趋势一致或不一致),有些指标差别无统计学意义。(2)多元配对设计均向量检验 目的:检验一样本是否来自均向量为 的m元正态总体 。例2.1 用胸腺素治疗15例病毒性心肌炎细胞免疫功能低下症,结果见表2.1(P10)。试问,胸腺素治疗前后免疫球蛋白是否有改变?例2.1 胸腺素治疗前后免疫球蛋白测定值IgGIgGIgAIgAIgMIgM疗前疗前疗后疗后差值差值疗前疗前疗后疗后差值差值疗前疗前疗后疗后差
11、值差值1810181016541654-156-156246246196196-50-50292292243243-49-491744174415681568-176-176213213208208-5-5286286272272-14-141806180617431743-63-63226226214214-12-12297297276276-21-211712171215841584-128-128238238168168-70-702652652742749 916421642164916497 72272272422421515307307289289-18-1816851685154
12、31543-142-142260260198198-62-6224624626526519191728172816241624-104-1041381382122127474312312288288-24-241695169515001500-195-1951961962072071111266266262262-4-41760176013401340-420-420233233179179-54-5424324325925916161690169014541454-236-236256256196196-60-60334334296296-38-381667166714531453-214-
13、214297297209209-88-88285285263263-22-221703170315641564-139-1392122122232231111296296274274-22-221715171516441644-71-712282282372379 924924926026011111699169915431543-156-156236236205205-31-31266266262262-4-41733173316841684-49-49202202197197-5-5308308288288-20-20例2.1资料的单因素分析(配对t检验)结果多元配对T检验检验假设检验统计
14、量多元配对 T 检验与配对 t 检验 的转置矩阵 V的逆矩阵AT 转转置矩置矩阵阵 在线性代数中,矩阵A的转转置置是另一个矩阵AT(也写做Atr,tA或A)A-1 逆矩逆矩阵阵 在矩阵的运算中,单位阵E 相当于数的乘法运算中的1,那么,对于矩阵A,如果存在一个矩阵 A-1,使得 AA-1=A-1A=E 则矩阵 A-1称为A 的可可逆矩逆矩阵阵或逆逆阵阵。Hotelling T 2 的分布例2.1资料的分析结果T 2=47.6559,F =13.6160,P=0.00036。故可以认为治疗后免疫球蛋白下降。(3)多元成组设计两样本的均向量检验 例2.2两组贫血患者的血红蛋白浓度(%,X1)及红细
15、胞计数(万/mm3,X2)如下表。问两组患者的贫血程度是否有差异。例例2.2两组贫血患者的血红蛋白浓度两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数及红细胞计数(万万/mm3,X2)A A组组B B组组X X1 1X X2 2X X1 1X X2 23.93.92102104.84.82702704.24.21901904.74.71801803.73.72402405.45.42302304.04.01701704.54.52452454.44.42202204.64.62702705.25.22302304.44.42202202.72.71601605.95.92902902.42.
16、42602605.55.52202203.63.62402404.34.32902905.55.51801805.15.13103102.92.92002003.33.3300300检验假设或检验统计量多元 T 检验与 t 检验Hotelling T 2 的分布例例2.2两组贫血患者的血红蛋白浓度两组贫血患者的血红蛋白浓度(%,X1)及红细胞计数及红细胞计数(万万/mm3,X2)A A组组B B组组X1X2X1X23.93.92102104.84.82702704.24.21901904.74.71801803.73.72402405.45.42302304.04.01701704.54.52
17、452454.44.42202204.64.62702705.25.22302304.44.42202202.72.71601605.95.92902902.42.42602605.55.52202203.63.62402404.34.32902905.55.51801805.15.13103102.92.92002003.33.3300300例2.2计算结果:P=0.0030。多元分析是单变量分析的扩展对单变量(一元)资料配对 t 检验是配对 Hotelling T2 检验的特例;t 检验是 Hotelling T2 检验的特例。2.2 多元方差分析Multivariate analysis
18、 of variance,MANOVA一元方差分析的基本思想:对方差(离均差平方和,SS)的分解多元方差分析的基本思想:对方差-协方差阵(离均差平方和-离均差积和,SSCP)的分解。例例2.3 三组贫血患者的血红蛋白浓度三组贫血患者的血红蛋白浓度(%,X1)及红细胞计数及红细胞计数(万万/mm3,X2)A组组B组组C组组X1X2X1X2X1X23.92104.82704.42504.21904.71803.73053.72405.42302.92404.01704.52454.53304.42204.62703.32305.22304.42204.51952.71605.92903.82752
19、.42605.52203.73103.62404.32905.51805.13102.92003.3300例2.3计算结果三组的均向量和离差矩阵例2.3计算结果(续)三组的离差矩阵之和(组内变异)总离差矩阵组间离差矩阵 检验假设多元方差分析表变异来源SSCP组间 1=g-1组内 2=n-g总 n-1Wilks统计量组内变异在总变异中的比例。例2.3的计算m=2,g=3:v1=2m=4,v2=2(30-2-2)=52P=0.001161.(3)多元区组设计资料的分析 例2.4 为了解某溶栓药对脑梗塞患者血压的影响,观察10名患者,分别与疗前、溶后10分钟、溶后20分钟测定患者的收缩压(X,mmH
20、g)和舒张压(Y,mmHg),结果如下表,问该溶栓药对血压有无影响?例例2.4 10名患者疗前、溶后名患者疗前、溶后10、20分钟的收缩压和舒张压分钟的收缩压和舒张压 区组疗前溶后10分钟溶后20分钟合计XYXYXYXY1120 81120 81120803602422116 68138 84108703622223140 80140 80135804152404140 84130 82120593902255167 89168106173845082796160100155 95160954752907140 84130 82120593902258172 82172 82159965032
21、6091761191501001489247431110148 94153 8315085451262平均147.9 88.1 145.6 87.5 139.3 80.0区组设计的SSCP矩阵及自由度的分解 变异来源SSCP自由度区组(个体)101时间(TIME)31误差(E)18总(T)301区组设计的Wilks统计量个体间的比较处理间的比较2.3 多元方差分析的正确应用基本思想:对SSCP矩阵的分解特点全面性与一元分析相辅相成应用条件独立性正态性(多元正态分布)方差齐性(协方差矩阵相等)缺失数据的处理EM算法hot deck估计小结:小结:t t检验、检验、F F检验、检验、T T 2 2检验和检验和 检验的关系检验的关系