《研究生医学统计中logistic回归.pptx》由会员分享,可在线阅读,更多相关《研究生医学统计中logistic回归.pptx(50页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 第一节第一节.非条件非条件logisticlogistic回归回归第二节第二节.条件条件logisticlogistic回归回归第三节第三节.应用及其注意事项应用及其注意事项第1页/共50页 医学研究中常碰到应变量应变量应变量应变量的可能取值仅有两个(即二分类变量二分类变量二分类变量二分类变量),如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,显然这类资料不满足多元(重)回归的条件 什么情况下采用什么情况下采用LogisticLogistic回归回归第2页/共50页 Brown(1980)在术前检查了53例前列腺癌患者,拟用年龄(AGE)、酸性磷酸酯酶(ACID)两个连
2、续型的变量,X射线(X_RAY)、术前探针活检病理分级(GRADE)、直肠指检肿瘤的大小与位置(STAGE)三个分类变量与手术探查结果变量NODES(1、0分别表示癌症淋巴结转移与未转移)建立淋巴结转移的预报模型。实例第3页/共50页(一)53例接受手术的前列腺癌患者情况 第4页/共50页(二)26例冠心病病人和28例对照进行病例 对照研究 第5页/共50页26例冠心病病人和28例对照者进行病例 对照研究 第6页/共50页一、logistic回归模型 第7页/共50页概率预报模型 第8页/共50页二、模型的参数估计参数估计 Logistic回归参数的估计通常采用最大似然法(maximum li
3、kelihood,ML)。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值称为参数的最大似然估计值。第9页/共50页参数估计的公式参数估计的公式 第10页/共50页三、回归参数的假设检验参数的假设检验 第11页/共50页优势比及其可信区间 第12页/共50页标准化回归参数参数用于评价各自变量对模型的贡献大小用于评价各自变量对模型的贡献大小第13页/共50页SAS程序第14页/共50页 The LOGISTIC ProcedureAnalysis of Maximum Likelihood Estimates第15页/共50页 预报模型
4、第16页/共50页 The LOGISTIC ProcedureAnalysis of Maximum Likelihood Estimates第17页/共50页 预报模型第18页/共50页四、回归参数的意义参数的意义 当只有一个自变量时,以相应的预报概率 为纵轴,自变量 为横轴,可绘制出一条S形曲线。回归参数的正负符号与绝对值大小,分别决定了S形曲线的方向与形状第19页/共50页第20页/共50页优势比改变优势比改变exp(exp(b bj j)个单位个单位第21页/共50页第22页/共50页第23页/共50页五、整个回归模型的假设检验的假设检验 第24页/共50页似然比检验(likelih
5、ood ratio test)第25页/共50页ROC曲线模型评价第26页/共50页ROC曲线模型评价图图16-2 Logistic16-2 Logistic回归预报能力的回归预报能力的ROCROC曲线曲线第27页/共50页六、logistic逐步回归(变量筛选)MODEL语句加入选项“SELECTION=STEPWISE SLE=0.100.10 SLS=0.100.10;”常采用似然比检验:决定自变量是否引入或剔除。第28页/共50页模型中有X5、X6、X8,看是否引入X1模型含X5、X6、X8的模型的负二倍对数似然为:50.402模型含X1、X5、X6、X8的模型的负二倍对数似然为:46
6、.224第29页/共50页第二节.条件logistic回归 第30页/共50页条件似然函数 第31页/共50页1:3配对的例子 第32页/共50页1:2配对的例子 第33页/共50页表16-7条件logistic回归的SAS程序 第34页/共50页结果第35页/共50页 第三节第三节 应用及其注意事项应用及其注意事项应变量应变量为(二项)分类的资料为(二项)分类的资料(预测、判别、危险因素分析等等)(预测、判别、危险因素分析等等)第36页/共50页 注意事项注意事项1.分类自变量的哑变量编码 为了便于解释,对二项分类变量一般按0、1编码,一般以0表示阴性或较轻情况,而1表示阳性或较严重情况。如
7、果对二项分类变量按+1与-1编码,那么所得的 ,容易造成错误的解释。第37页/共50页西、中西、中三种疗法哑变量化西、中西、中三种疗法哑变量化 原资料原资料姓名姓名性别性别年龄年龄 疗法疗法张山张山150中西中西李四李四120西西王五王五018中中刘六刘六070中中赵七赵七135中西中西孙八孙八029西西哑变量化哑变量化姓名姓名性别性别年龄年龄X1X2张山张山15001李四李四12010王五王五01800刘六刘六07000赵七赵七13501孙八孙八02910第38页/共50页 注意事项注意事项2.自变量的筛选 不同的筛选方法有时会产生不同的模型。实际工作中可同时采用这些方法,然后根据专业的可解
8、释性、模型的节约性和资料采集的方便性等,决定采用何种方法的计算结果。第39页/共50页 注意事项注意事项3.交互作用 交互作用的分析十分复杂,应根据临床意义与实际情况酌情使用。第40页/共50页 注意事项注意事项4.多分类logistic回归 心理疾病分为精神分裂症、抑郁症、神经官能症等(名义变量名义变量nominal variables);疗效评价分为无效、好转、显效、痊愈(有序变量有序变量ordinal variables)。参见第17章应变量第41页/共50页SPSS软件计算Analyze Regression Binary LogisticDependent:yCovariates:x
9、1 x8 Method:Forward WardSave Predicted Values Probabilities Group membershipOption CI for exp 95%Probability for Stepwise Entry:0.1 Removal 0.15第42页/共50页DATA samp16_1;INPUT x_ray grade stage age acid nodes;CARDS;.;PROC LOGISTIC DESCENDING;MODEL nodes=x_ray grade stage age acid/RISKLIMITS;OUTPUT OUT=
10、pred PROB=pred;PROC PRINT DATA=pred;RUN;第43页/共50页 The SAS System 22:07 Monday,November 29,2005 1 The LOGISTIC Procedure Model Information Data Set WORK.SAMP16_1 Response Variable nodes Number of Response Levels 2 Number of Observations 53 Model binary logit Optimization Technique Fishers scoring Res
11、ponse Profile Ordered Total Value nodes Frequency 1 1 20 2 0 33 Probability modeled is nodes=1.第44页/共50页 Model Convergence Status Convergence criterion(GCONV=1E-8)satisfied.Model Fit Statistics Intercept Intercept and Criterion Only Covariates AIC 72.252 60.126 SC 74.222 71.948 -2 Log L 70.252 48.12
12、6 Testing Global Null Hypothesis:BETA=0 Test Chi-Square DF Pr ChiSq Likelihood Ratio 22.1264 5 0.0005 Score 19.4514 5 0.0016 Wald 13.1406 5 0.0221第45页/共50页 The SAS System 22:07 Monday,November 29,2005 2 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estima
13、te Error Chi-Square Pr ChiSq Intercept 1 0.0618 3.4599 0.0003 0.9857 x_ray 1 2.0453 0.8072 6.4208 0.0113 grade 1 0.7614 0.7708 0.9759 0.3232 stage 1 1.5641 0.7740 4.0835 0.0433 age 1 -0.0693 0.0579 1.4320 0.2314 acid 1 0.0243 0.0132 3.4230 0.0643第46页/共50页 The SAS System 22:07 Monday,November 29,2005
14、 2 The LOGISTIC Procedure Analysis of Maximum Likelihood Estimates Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSq Intercept 1 0.0618 3.4599 0.0003 0.9857 x_ray 1 2.0453 0.8072 6.4208 0.0113 grade 1 0.7614 0.7708 0.9759 0.3232 stage 1 1.5641 0.7740 4.0835 0.0433 age 1 -0.0693 0.0579 1.
15、4320 0.2314 acid 1 0.0243 0.0132 3.4230 0.0643 Odds Ratio Estimates Point 95%Wald Effect Estimate Confidence Limits x_ray 7.732 1.589 37.614 grade 2.141 0.473 9.700 stage 4.778 1.048 21.783 age 0.933 0.833 1.045 acid 1.025 0.999 1.051第47页/共50页 Association of Predicted Probabilities and Observed Resp
16、onses Percent Concordant 84.5 Somers D 0.694 Percent Discordant 15.2 Gamma 0.696 Percent Tied 0.3 Tau-a 0.332 Pairs 660 c 0.847 Wald Confidence Interval for Adjusted Odds Ratios Effect Unit Estimate 95%Confidence Limits x_ray 1.0000 7.732 1.589 37.614 grade 1.0000 2.141 0.473 9.700 stage 1.0000 4.77
17、8 1.048 21.783 age 1.0000 0.933 0.833 1.045 acid 1.0000 1.025 0.999 1.051第48页/共50页 Obs no x_ray grade stage age acid nodes _LEVEL_ pred 1 1 0 1 1 64 40 0 1 0.25511 2 2 0 0 1 63 40 0 1 0.14633 3 3 1 0 0 65 46 0 1 0.21842 4 4 0 1 0 67 47 0 1 0.06459 。50 50 1 0 1 64 89 1 1 0.80302 51 51 0 1 0 59 99 1 1 0.29880 52 52 1 1 1 68 126 1 1 0.94215 53 53 1 0 0 61 136 1 1 0.76730第49页/共50页感谢您的观看!第50页/共50页