《9 logistic回归分析.ppt》由会员分享,可在线阅读,更多相关《9 logistic回归分析.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、STATA软件的应用-Logistic 回归分析回归分析非常简便、非常简便、快速快速o因因变量(结局):分类变量变量(结局):分类变量n二分类变量(二分类logistic回归)n有序多分类变量(有序多分类logistic回归)n无序多分类变量(无序多分类logistic回归)o自变量自变量(各种影响因素)(各种影响因素):可以是分类变量,也可可以是分类变量,也可以是连续型变量。以是连续型变量。数据特征二分类资料的分析非条件logistic模型:成组病例对照研究资料条件logistic模型:配比病例对照研究资料非条件logistic回归模型o参数的估计:参数的估计:极大似然(极大似然(MLE)o
2、假设检验假设检验:似然比检验似然比检验:G=-2lnL-(-2lnL)Wald检验检验:z 检验检验参数估计与假设检验回归系数的解释o回归系数回归系数 表示当其它自变量固定不变时,表示当其它自变量固定不变时,X每改变一个单位,优势对数的改变量(优每改变一个单位,优势对数的改变量(优势比的对数)。势比的对数)。回归系数的解释回归系数的解释o二分类变量:OR=exp()表示暴露组发病的危险是非暴露组的几倍。o等级变量:一般以最小等级或最大等级作为参考组,并按等级顺序依次取为0,1,2,。此时,OR=exp()表示X增加一个等级时,发病危险变为原来的几倍。o连续性变量:表示增加1(个计量单位)时,发
3、病危险变为原来的几倍。回归系数的解释o多分类变量:哑变量(dummy variable)nx1时:x11,x20,x30,x40 表示A型血nx2时:x10,x21,x30,x40 表示B型血nx3时:x10,x20,x31,x40 表示AB型血nx4时:x10,x20,x30,x41 表示O型血产生哑变量:tab x,gen(x)非条件logistic回归ologit 因变量 自变量,选择项osw logit 因变量 自变量,选择项 选择项:or 指定结果中给出OR值,缺失时输出回归系数 pr(#)是剔除变量的P值 pe(#)是选入变量的P值 例例1(成组病例对照研究成组病例对照研究)某单位
4、研究胸膜间皮瘤与接触某单位研究胸膜间皮瘤与接触石棉的关系,资料见下表。试对其进行分析。石棉的关系,资料见下表。试对其进行分析。o方法方法1:卡方检验:卡方检验o方法方法2:拟合:拟合logistic回归模型,即回归模型,即数据结构方法1:2 检验cc case exposure cc case exposure fwfw=f=f Proportion Proportion|Exposed Unexposed|Total Exposed|Exposed Unexposed|Total Exposed-+-+-+-+-Cases|40 36|76 0.5263 Cases|40 36|76 0.5
5、263 Controls|9 67|76 0.1184 Controls|9 67|76 0.1184-+-+-+-+-Total|49 103|152 0.3224 Total|49 103|152 0.3224|Point estimate|95%Conf.Interval|Point estimate|95%Conf.Interval|-+-|-+-Odds ratio|8.271605|3.4193 21.33091Odds ratio|8.271605|3.4193 21.33091 (exact)(exact)AttrAttr.fracfrac.ex.|.8791045|.7075
6、425 .9531197 (exact).ex.|.8791045|.7075425 .9531197 (exact)AttrAttr.fracfrac.pop|.4626866|.pop|.4626866|+-+-chi2(1)=28.94 Prchi2=0.0000chi2(1)=28.94 Prchi2=0.0000方法2:logistic回归回归输出回归系数输出回归系数logitlogit case exposure case exposure fwfw=f=fLogitLogit estimates Number of estimates Number of obsobs =152
7、=152 LR chi2(1)=30.67LR chi2(1)=30.67 ProbProb chi2 =0.0000 chi2 =0.0000Log likelihood=-90.024994 Pseudo R2 =0.1455Log likelihood=-90.024994 Pseudo R2 =0.1455-case|case|CoefCoef.Std.Err.z P|z|95%Conf.Interval.Std.Err.z P|z|95%Conf.Interval-+-+-exposure|exposure|2.112829 2.112829 .4228578 5.00 0.000
8、1.284043 2.941615 .4228578 5.00 0.000 1.284043 2.941615 _cons|_cons|-.6211737-.6211737 .2066474 -3.01 0.003 -1.026195 -.2161522 .2066474 -3.01 0.003 -1.026195 -.2161522-似然比似然比 2 2=30.67,P P0.0000,0.0000,因此可以认为模型有意义。因此可以认为模型有意义。方法2:logistic回归回归输出输出OR logitlogit case exposure case exposure fwfw=f,orf,
9、orLogitLogit estimates Number of estimates Number of obsobs =152 =152 LR chi2(1)=30.67 LR chi2(1)=30.67 ProbProb chi2 =0.0000 chi2 =0.0000Log likelihood=-90.024994 Pseudo R2 =0.1455Log likelihood=-90.024994 Pseudo R2 =0.1455-case|Odds Ratio Std.Err.z P|z|95%Conf.Interval case|Odds Ratio Std.Err.z P|
10、z|95%Conf.Interval-+-+-exposure|exposure|8.271605 8.271605 3.497713 5.00 0.000 3.497713 5.00 0.000 3.611209 18.946413.611209 18.94641-胸膜间皮瘤与接触石棉的关系有统计学意义,胸膜间皮瘤与接触石棉的关系有统计学意义,OR=8.27(95%CI:3.61-18.95),可认为接触石棉者发生间皮瘤可认为接触石棉者发生间皮瘤的危险性为未接触者的的危险性为未接触者的8.27倍。倍。分类资料的分析非条件logistic模型:成组病例对照研究资料 队列研究资料条件logist
11、ic模型:配比病例对照研究资料 回归的常数项因同一层病例和对照的基线患病回归的常数项因同一层病例和对照的基线患病(发病)概率相同被抵消掉了,因此(发病)概率相同被抵消掉了,因此不能作预不能作预测,只能作因素分析。测,只能作因素分析。回归系数回归系数:表示病例与对照变量值之差与患表示病例与对照变量值之差与患病优势的关系,即病优势的关系,即exp()exp()表示病例与对照暴露表示病例与对照暴露水平相差一个单位时患病的优势比。水平相差一个单位时患病的优势比。条件logistic回归模型例3 在子宫内膜癌与使用雌激素关系的研究中,运用了1:4的病例-对照研究,配比因素为年龄,共调查了63对,315例
12、。各变量定义如下:数据结构条件logistic回归oclogit 因变量 自变量,group(配比变量)or group()是必选项,它是用来区分各配比组的。or的意义同logit。clogit y ht est drug,group(match)orConditional(fixed-effects)logistic regression Number of Conditional(fixed-effects)logistic regression Number of obsobs =315 =315 LR chi2(3)=39.45 LR chi2(3)=39.45 ProbProb ch
13、i2 =0.0000 chi2 =0.0000Log likelihood=-81.671759 Pseudo R2 =0.1945Log likelihood=-81.671759 Pseudo R2 =0.1945-y|Odds Ratio Std.Err.z P|z|95%Conf.Interval y|Odds Ratio Std.Err.z P|z|95%Conf.Interval-+-+-ht|.8954587 .3026653 -0.33 0.744 .4616781 1.736808 ht|.8954587 .3026653 -0.33 0.744 .4616781 1.736
14、808 estest|6.903735 2.997048 4.45 0.000 2.948225 16.16619|6.903735 2.997048 4.45 0.000 2.948225 16.16619 drug|2.142038 1.05669 1.54 0.123 .8145551 5.632922 drug|2.142038 1.05669 1.54 0.123 .8145551 5.632922-sw clogit y ht est drug,group(match)or pe(0.10)pr(0.11)swsw clogitclogit y ht y ht estest dru
15、g,drug,group(matchgroup(match)or pe(0.10)pr(0.11)or pe(0.10)pr(0.11)begin with full model begin with full modelp=0.7439=0.1100 p=0.7439=0.1100 removing htremoving htp=0.1314=0.1100 p=0.1314=0.1100 removing drugremoving drugConditional(fixed-effects)logistic regression Number of Conditional(fixed-eff
16、ects)logistic regression Number of obsobs =315 =315 LR chi2(1)=36.87 LR chi2(1)=36.87 ProbProb chi2 =0.0000 chi2 =0.0000Log likelihood=-82.959065 Pseudo R2 =0.1818Log likelihood=-82.959065 Pseudo R2 =0.1818-y|Odds Ratio Std.Err.z P|z|95%Conf.Interval y|Odds Ratio Std.Err.z P|z|95%Conf.Interval-+-+-e
17、stest|8.175451 3.429501 5.01 0.000 3.592884 18.60289|8.175451 3.429501 5.01 0.000 3.592884 18.60289-结论 子宫内膜癌与使用雌激素关系有统计学意子宫内膜癌与使用雌激素关系有统计学意义,义,OR=8.18(95%CI:3.59-18.60),可认为可认为使用雌激素者发生子宫内膜癌的危险性为未使使用雌激素者发生子宫内膜癌的危险性为未使用者的用者的8.18倍。倍。课后练习利用帮助功能学习STATA软件中的Logistic回归分析ohelp logit 二分类(非条件)ohelp clogit 二分类(条件)ohelp ologit 有序多分类ohelp mlogit 无序多分类