《多元统计分析讲座.pdf》由会员分享,可在线阅读,更多相关《多元统计分析讲座.pdf(15页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析多元统计分析Multivariate Analysis Multivariate Analysis-An An IntroductionIntroduction(MVAMVA)临床评价中心白文静2007-02-162内 容内 容 我们的研究工作?我们的研究工作?什么是多元统计分析?什么是多元统计分析?为什么需要用到多元统计分析?为什么需要用到多元统计分析?有哪些分析方法?如何选择有哪些分析方法?如何选择 Logistic回归分析回归分析 因子分析介绍及举例因子分析介绍及举例 结论结论2007-02-163多元统计分析多元统计分析conclusionsDatabaseanalysis
2、Design统计需要参与到整个研究过程中!统计需要参与到整个研究过程中!复杂问题背后的简单表述复杂问题背后的简单表述医生(领域专家、临床医生)医生(领域专家、临床医生)统计学专家统计学专家实验室数据实验室数据临床试验数据临床试验数据问卷调研数据问卷调研数据基本统计分析基本统计分析多元统计分析多元统计分析研究工作流程图研究工作流程图2007-02-164多元统计分析多元统计分析 什么是多元统计分析呢?什么是多元统计分析呢?单因素分析单因素分析单因素分析单因素分析 多因素分析多因素分析多因素分析多因素分析单因素分析方法:单独地研究每个因素对结果的影响;多因素分析方法:分析多个因素对结果的单独作用和
3、对结果的联合作用。2007-02-165相关分析相关分析交叉表交叉表参数检验参数检验非参数检验非参数检验描述分析描述分析回归分析回归分析四分位距四分位距方差方差频率频率均值均值中位数中位数单 因 素 统 计单 因 素 统 计2007-02-166多 因 素 统 计多 因 素 统 计判别分析判别分析多元方差分析多元方差分析相关分析相关分析结构方程模型结构方程模型因子分析因子分析回归分析回归分析聚类分析聚类分析曲线回归曲线回归概率单位回归概率单位回归二值逻辑回归二值逻辑回归有序回归有序回归线性回归线性回归岭回归岭回归分层聚类分层聚类快速聚类快速聚类主成分回归主成分回归岭回归岭回归生存分析生存分析2
4、007-02-167多元统计分析多元统计分析 为什么会用到多元统计分析呢?为什么会用到多元统计分析呢?联合作用!联合作用!联合作用!联合作用!临床研究的因果效应往往受多种因素的综合影响,单因素分析常受混杂因素的干扰而难获得真实结果。进行多元统计分析则可获得更为全面而真实的结论。临床研究的因果效应往往受多种因素的综合影响,单因素分析常受混杂因素的干扰而难获得真实结果。进行多元统计分析则可获得更为全面而真实的结论。2007-02-168多元统计分析多元统计分析 证候证候 干预干预 症状1症状1 症状2症状2 症状n症状n单因素统计分析单因素统计分析2007-02-169多元统计分析多元统计分析 一
5、个一个研究者研究者可能不了解所有的分析技术细节可能不了解所有的分析技术细节 但是应该能够正确地选择适当的方法但是应该能够正确地选择适当的方法 使用多元技术,你不必知道详细的数学公式-但是你应当明白它的原理,结果的解释使用多元技术,你不必知道详细的数学公式-但是你应当明白它的原理,结果的解释 多元分析并不是魔术棒,不需要我们开动脑筋就能解决问题-它不会轻易告诉你答案多元分析并不是魔术棒,不需要我们开动脑筋就能解决问题-它不会轻易告诉你答案 如果设计的很差,多元分析就很难发挥作用如果设计的很差,多元分析就很难发挥作用2007-02-1610常用的多元分析技术常用的多元分析技术如何选择恰当的多元统计
6、方法?如何选择恰当的多元统计方法??分析目的分析目的 多元线性回归分析多元线性回归分析 多元logistic回归分析多元logistic回归分析 生存分析生存分析 判别分析判别分析 时间序列分析时间序列分析 路径分析路径分析 结构方程分析结构方程分析依存关系依存关系依存关系依存关系 聚类分析聚类分析 主成分分析主成分分析 因子分析因子分析 多元相关分析多元相关分析 典型相关分析典型相关分析相互关系相互关系相互关系相互关系疾病的计量诊断;病症、药物疗效疾病的计量诊断;病症、药物疗效疾病的病因学分析;疾病的病因学分析;疾病危险因素/保护因素的寻找;疾病危险因素/保护因素的寻找;患者治疗后生存分析;
7、患者治疗后生存分析;证候症状关系;证候症状关系;多个医学指标的分类与筛选;多个医学指标的分类与筛选;两群多个医学指标间的关系;两群多个医学指标间的关系;寻找能反映多个医学指标的综合指标;寻找能反映多个医学指标的综合指标;症状群的研究。症状群的研究。2007-02-1611常用的多元分析技术常用的多元分析技术 与回归有关的分析与回归有关的分析xyx2yx3x1x1y11x2x3y2231x1y1x2x3y22x4y3一元回归路径图多元回归路径图多变量回归分析路径图路径分析路径图一元回归路径图多元回归路径图多变量回归分析路径图路径分析路径图2007-02-1612反映反映依存依存关系的多元统计方法
8、关系的多元统计方法?多元线性回归分析:多个自变量对一个定量类型变量的作用;多元线性回归分析:多个自变量对一个定量类型变量的作用;?多元多元logistic回归分析回归分析:多个自变量对一个定性类型变量的影响;:多个自变量对一个定性类型变量的影响;?生存分析:生存时间的分布规律以及生存时间和相关因素之间关系;生存分析:生存时间的分布规律以及生存时间和相关因素之间关系;?判别分析:用一批已经具有明确分类的样品,根据特定测量指标建立一个或多个判别函数;判别分析:用一批已经具有明确分类的样品,根据特定测量指标建立一个或多个判别函数;?时间序列分析:受到时间性因素:季节、长期趋势、循环变动等时间序列分析
9、:受到时间性因素:季节、长期趋势、循环变动等?路径分析:描述变量间的间接作用;克服了自变量独立的强假设路径分析:描述变量间的间接作用;克服了自变量独立的强假设?结构方程分析:含有潜在因子的路径分析模型。结构方程分析:含有潜在因子的路径分析模型。2007-02-1613反映反映相互相互关系的多元统计方法关系的多元统计方法?聚类分析:将若干个对象按属性相似的程度进行归类;可以对样本聚类,也可以对指标聚类;聚类分析:将若干个对象按属性相似的程度进行归类;可以对样本聚类,也可以对指标聚类;?主成分分析:减少指标的个数同时尽量不损失或少损失原指标变量所含信息。将非独立变量转化为独立变量,为依存分析作准备
10、。主成分分析:减少指标的个数同时尽量不损失或少损失原指标变量所含信息。将非独立变量转化为独立变量,为依存分析作准备。?因子分析:探索性因子分析和验证性因子分析因子分析:探索性因子分析和验证性因子分析?典型相关分析:两组变量间的相关性研究。典型相关分析:两组变量间的相关性研究。2007-02-1614常用的多元分析技术常用的多元分析技术 如何选择恰当得多元统计方法?如何选择恰当得多元统计方法??资料的分布资料的分布 单变量单变量均均为正态分布为正态分布 样本含量较大样本含量较大?样本含量样本含量 一般为研究因素个数的510倍,少于50例不宜一般为研究因素个数的510倍,少于50例不宜?资料类型资
11、料类型 数值变量(计量资料)数值变量(计量资料)无序分类变量(计数资料)无序分类变量(计数资料)有序分类变量(等级资料)有序分类变量(等级资料)不同方法,适用的变量类型不同!不同方法,适用的变量类型不同!不同方法,适用的变量类型不同!不同方法,适用的变量类型不同!2007-02-1615常用的多元分析软件常用的多元分析软件 SPSS 15.0 操作简单SPSS 15.0 操作简单 SAS 9.1 灵活SAS 9.1 灵活 EQS/LISREL 结构方程模型EQS/LISREL 结构方程模型 S-plus 数学运算S-plus 数学运算 Eviews 3.1 时间序列Eviews 3.1 时间序
12、列2007-02-1616Logistic 回归分析篇回归分析篇Logistic Regression AnalysisLogistic Regression Analysis2007-02-1617结构结构 什么是Logistic 回归分析?什么是Logistic 回归分析?尝试通过练习了解它尝试通过练习了解它 应用场合应用场合 软件实现软件实现2007-02-1618LogisticLogistic 回归分析基本原理回归分析基本原理利用一组观测数据拟和利用一组观测数据拟和logisticlogistic模型,然后借助这个模型来揭示总体中若干自变量与一个因变量取某个值的概率之间的依存关系,并
13、评估该模型模拟相关事物变化规律的准确性。模型,然后借助这个模型来揭示总体中若干自变量与一个因变量取某个值的概率之间的依存关系,并评估该模型模拟相关事物变化规律的准确性。1.000.750.500.250.0LogisticLogistic曲线曲线PX2007-02-1619Logistic 回归分析基本原理回归分析基本原理 因变量为分类型变量时,因变量为分类型变量时,生存与死亡;有病与无病;有效与无效;生存与死亡;有病与无病;有效与无效;疾病程度(轻度、中度、重度);治疗效果(治愈、显效、好转、无效)疾病程度(轻度、中度、重度);治疗效果(治愈、显效、好转、无效)数学上,用概率来表示数学上,用
14、概率来表示x与与y的关系!的关系!患病的概率与危险因素患病的概率与危险因素2007-02-1620一元一元logistic回归举例回归举例【例】66975155013511750621880115095113501949684750950未患BPD患BPD观察人数组中值出生时体重(g)BirthwtBPD(223例)调查数据新生儿出生体重是否是支气管发育不良的影响因素?BirthwtBPD(223例)调查数据新生儿出生体重是否是支气管发育不良的影响因素?新生儿出生体重是否是支气管发育不良的影响因素?新生儿出生体重是否是支气管发育不良的影响因素?2007-02-1621SPSS2007-02-1
15、622(1)卡方检验(1)卡方检验birthwt*bpd Crosstabulation19496827.9%72.1%100.0%62188077.5%22.5%100.0%6697588.0%12.0%100.0%1477622365.9%34.1%100.0%Count%within birthwtCount%within birthwtCount%within birthwtCount%within birthwt75011501550birthwtTotal01bpdTotalChi-Square Tests64.709a2.00065.2292.00055.7571.000223P
16、earson Chi-SquareLikelihood RatioLinear-by-LinearAssociationN of Valid CasesValuedfAsymp.Sig.(2-sided)0 cells(.0%)have expected count less than 5.Theminimum expected count is 23.17.a.Symmetric Measures.474.000223Contingency CoefficientNominal by NominalN of Valid CasesValueApprox.Sig.Not assuming th
17、e null hypothesis.a.Using the asymptotic standard error assuming the null hypothesis.b.列联表卡方检验列联表卡方检验列联表卡方检验列联表卡方检验+相关性检验相关性检验相关性检验相关性检验2007-02-1623SAS2007-02-1624(2)一元(2)一元logistic回归回归总体模型检验结果总体模型检验结果总体模型检验结果总体模型检验结果Model Fit StatisticsInterceptIntercept andCriterion Only CovariatesAICAIC288.140 22
18、9.166SC 287.932 228.750-2 Log L 286.140 225.166R-Square 1.0000 Max-rescaled R-Square 1.0000Testing Global Null Hypothesis:BETA=0Test Chi-Square DF Pr ChiSqLikelihood Ratio 60.9739 1 .0001Score 56.0078 1 .0001WaldWald45.6092 1 ChiSqIntercept 1 3.7180 0.6387 33.8853 .0001birthwt1 -0.00397 0.000588 45.
19、6092 1,OR1,危险因素;危险因素;OR1,OR1解释的总变异百分比50%2007-02-1644结果解释:结果解释:4、碎石图(特征根的直观展现!)、碎石图(特征根的直观展现!)123456789101112Component Number0.51.01.52.02.5EigenvalueScree Plot2007-02-1645Component Matrixa.627-.055.174.124.709-.303-.049.227.595-.364-.299-.109.519-.291-.320.135.469-.080-.221-.097.594.115.415-.072.248
20、.129.601-.220-.051.481-.573.019.006.225.010.793-.262-.309.270.580.359.671-.063.163.470.543.090-.025P110P111P112P113P114P115P116P117P118P119P120P1211234ComponentExtraction Method:Principal Component Analysis.4 components extracted.a.结果解释:结果解释:5、因子载荷矩阵、因子载荷矩阵这里每一列代表一个主成分作为原来变量线性组合的系数(比例)。Z第一主成分0.627zx
21、1+0.709zx20.595zx3载荷值0.3(x)2007-02-1646进一步分析菜单:为实现每个公因子均有适当的解释,判断是否1.引入因子?2.因子旋转?2007-02-1647结果:结果:1、旋转后因子载荷矩阵、旋转后因子载荷矩阵Rotated Component Matrixa.753.028.227.173.738-.056.007-.197.683.009-.082.040.485.139.024-.170.482.167.409.116.043.768.090.098.109.647.300-.058-.035.525-.522-.113-.105.073.678-.112.
22、269.242.641-.029-.001.282-.108.768-.108-.371.027.650P111P112P113P114P110P120P121P117P116P115P118P1191234ComponentExtraction Method:Principal Component Analysis.Rotation Method:Varimax with Kaiser Normalization.Rotation converged in 5 iterations.a.用因子表示原来的变量P111=0.753z1+0.028z2+0.227z3+0.173z4各个因子与原变
23、量的相关关系,进而给出各因子的实际意义!2007-02-1648Component Score Coefficient Matrix.174.042.216.119.352-.054.051.172.374-.097-.105-.150.362-.040-.166.053.229.047-.068-.130.020.087.413-.009-.166.002.510-.094.019.378-.420-.091.016.205-.096.667-.013-.220.068.551-.049.487.003.101-.042.385.156-.032P110P111P112P113P114P11
24、5P116P117P118P119P120P1211234ComponentExtraction Method:Principal Component Analysis.Rotation Method:Varimax with Kaiser Normalization.Component Scores.结果:结果:2、因子得分回归系数矩阵、因子得分回归系数矩阵Z10.174p110+0.352p111+0.374p113计算每个样本的在因子上的得分,并将得分保存起来,可以进行后续分析。用较少的因子来代替众多指标变量来综合评述总体情况!2007-02-1649探索分析的任务探索分析的任务?估计因
25、子载荷估计因子载荷?确定潜在变量个数确定潜在变量个数?揭示潜在变量意义揭示潜在变量意义?计算因子得分计算因子得分2007-02-1650验证性因子分析验证性因子分析 我们已经有理论假定了!我们已经有理论假定了!是一种限制性的分析,结果取决于对模型的假设!是一种限制性的分析,结果取决于对模型的假设!1x1x2x3x421234X1、x2受因子1的影响;X3、x4受因子2的影响。因子1和因子2之间有关联!通过预测与样本的差异判断我们的假定是否正确!即模型拟和效果。2007-02-1651验证性因子分析验证性因子分析分析条件:分析条件:k(k1)/2p,k:模型中观察变量的个数;p:模型中待估计的未
26、知参数的个数。(模型可识别,即可估计参数)研究因子之间的关联性问题与简单相关、偏相关以及典型相关分析不同研究因子之间的关联性问题与简单相关、偏相关以及典型相关分析不同:一方面是研究的是潜在变量的相关;另一方面允许每个指标变量有度量误差,更符合实际。研究问题研究问题:病因与病症的关系,很多病症不能用一个单一指标给以准确描述的,如痴呆、抑郁症。甚至无法用一个指标概括,医生为了确诊病人和找出得病的原因时,要进行综合分析和评估。2007-02-1652两种类型的因子分析两种类型的因子分析 探索性因子分析和验证性因子分析探索性因子分析和验证性因子分析Exploratory factor analysis
27、&confirmatory factor analysisExploratory factor analysis&confirmatory factor analysis1x1x2x3x4212341x1x2x3x4212342007-02-1653两种类型的因子分析两种类型的因子分析区别区别EFAEFA 不清楚显变量的内部关联不清楚显变量的内部关联 潜在变量独立潜在变量独立 不需要检验不需要检验 应用于数据分析初级阶段应用于数据分析初级阶段CFACFA 明确的理论支持明确的理论支持 潜在变量关联潜在变量关联 需要检验需要检验 可以得到某些结论可以得到某些结论EFA:划分类群;当不能对试验条件
28、进行控制,或不可能对现象进行时序观测时,可用因子分析分类,同时提供因果联系的依据;多维标度判别分析于确定临床参考值的多维标度法的基础;CFA:用于量表研究中的结构效度分析。2007-02-1654两种类型因子分析的两种类型因子分析的共同点共同点 不论是探索性因子分析还是验证性因子分析都是为了考察观测变量之间的相关系数和方差协方差。不论是探索性因子分析还是验证性因子分析都是为了考察观测变量之间的相关系数和方差协方差。通过寻找潜在公共因子,并合理解释因子的意义,我们就能揭示错综复杂的事物的内部结构。通过寻找潜在公共因子,并合理解释因子的意义,我们就能揭示错综复杂的事物的内部结构。2007-02-1
29、655两种类型因子分析两种类型因子分析应用应用 应用场合量表的结构效度分析!应用场合量表的结构效度分析!一般来说,用一半数据做探索性因子分析,然后把析取的因子用在剩下的一半数据中做验证性因子分析。一般来说,用一半数据做探索性因子分析,然后把析取的因子用在剩下的一半数据中做验证性因子分析。如果验证性因子分析的拟合效果非常差,就必须用探索性因子分析来找出数据与模型之间的不一致。如果验证性因子分析的拟合效果非常差,就必须用探索性因子分析来找出数据与模型之间的不一致。对新数据拟合模型时,任何改动都需要进行检验。对新数据拟合模型时,任何改动都需要进行检验。2007-02-1656回顾回顾 我们的研究工作
30、?我们的研究工作?什么是多元统计分析?什么是多元统计分析?为什么需要用到多元统计分析?为什么需要用到多元统计分析?有哪些分析方法?如何选择有哪些分析方法?如何选择 Logistic回归分析回归分析 因子分析介绍及举例因子分析介绍及举例 结论结论最 后 的 话最 后 的 话2007-02-1658多元统计分析不能替代多元统计分析不能替代.好的研究方案设计好的研究方案设计 好的运作执行和质量控制好的运作执行和质量控制 研究小组清晰的思路研究小组清晰的思路 但是多元统计分析是一种非常重要的研究方法,你将会在工作中接触和使用它但是多元统计分析是一种非常重要的研究方法,你将会在工作中接触和使用它THANK YOU!