多元分析复习题及答案.doc

上传人:豆**** 文档编号:24065813 上传时间:2022-07-03 格式:DOC 页数:20 大小:1,001.50KB
返回 下载 相关 举报
多元分析复习题及答案.doc_第1页
第1页 / 共20页
多元分析复习题及答案.doc_第2页
第2页 / 共20页
点击查看更多>>
资源描述

《多元分析复习题及答案.doc》由会员分享,可在线阅读,更多相关《多元分析复习题及答案.doc(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Four short words sum up what has lifted most successful individuals above the crowd: a little bit more.-author-date多元分析复习题及答案11. 什么是单变量(一元)分析?什么是多元分析?对多变量资料为什么不能用一元分析代替多元分析?答案:应变量(因变量/反应变量)即分析指标仅一个时:称一元分析或单变量分析。应变量(因变量/反应变量)即分析指标有多个时:称多元分析/多变量分析。u 对多变量资料分别进行单变量分析,可能导致 增大犯第类错误的概率 当单变量分析结果不一致时,很难得到一个综

2、合的结论 忽略变量间的相互关系。u 因此,多元分析与一元分析在使用时是相辅相成的。u 多元统计分析具有概括和全面考虑的综合能力和特点u 一元分析(单指标) 容易分析各指标各组间的关系和差异u 两种结合起来所得结论更丰富2.某研究者对当地40岁以上人群进行调查,收集性别、ECG、年龄与患冠状动脉疾病数据,并进行回归分析,数据的编码及SPSS软件分析结果如下,写出回归模型的一般形式,并解释各回归系数(结合or值)。因素赋值说明性别1=男性,0=女性ECG1= ST段压低0.1mV,2= ST段压低范围在0.10.2mV3= ST段压低范围0.2mV年龄(岁)冠状动脉疾病Y是=1 否=0SPSS软件

3、分析结果因素回归系数标准误Wald 卡方P值OR值常数项-20.2074.56218.6660.000性别 0.2630.636 0.1710.6790.072ECG 1.6340.682 5.7440.0175.124年龄 0.0850.036 5.5210.0191.089答案:=-20.207+0.263性别+1.634EGG+0.085年龄根据spss软件结果可知,影响冠状动脉疾病患病的因素有ECG和年龄;偏回归系数解释实际是对OR的解释:ECG的OR值为5.124,即ECG每增加一个等级,患冠状动脉疾病的风险增加4.124倍(5.124-1)并且ECG的影响大于年龄的影响;年龄OR值

4、1.089,年龄增大一岁患冠状动脉疾病的风险是原来的1.089倍。3、测定n例糖尿病人的血糖(Y,mmol/L),胰岛素 (X1,mu/L)以及生长素(X2, g/L)的数值,均为定量资料。并建立了血糖对于胰岛素及生长素的多重线性回归方程, =17.0018-0.4059X1 +0.0977X2. 假定 经过检验方程有意义,且两个偏回归系数都有统计学意义,请回答:1)多重线性回归对应变量和自变量有哪些要求?答案:Y(应变量)变量服从正态分布的连续性随机变量;自变量x大多数应为连续性变量,可以有少部分的分类变量(两分类、无序多分类和有许多分类)2)请解释两个偏回归系数的含义。b1 为-0.405

5、9,在其他自变量(生长素不变)不变的情况下,胰岛素每增加1 mu/L,血糖下降0.4059 mmol/L。b1 为0.0977,在其他自变量(胰岛素水平不变)不变的情况下,生长素每增加1g/L,血糖增加0.0977 mmol/L。3)若评价此多重线性回归方程优劣程度应选取什么指标?剩余标准差或调整决定系数。4. 为研究恶性肠道梗阻住院患者生存时间的影响因素,在1995年至2000年间,收集了三所医院95例住院患者的资料,各变量的赋值说明见表16-3。表16-3 95例恶性肠道梗阻住院患者资料各变量赋值说明变量说明赋值ID编号time生存时间(天)status生存状态0=删失,1=死亡group

6、支架类型1=金属支架,2=塑料内涵管gender性别1=男,2=女complica并发症0=无,1=有obstruct梗阻段1=上段,2=中段,3=下段stage分期1=期,2=期,3=期,4=期size肿瘤体积(cm3)duration住院天数 表16-10 Cox回归分析参数估计及假设检验结果变量偏回归系数标准误WaldP值OR值OR值95%置信区间下限上限group1.1550.4327.1510.0073.1751.3617.403gender0.0230.4210.0030.9570.9780.4292.230duration0.0120.0073.4060.0651.0120.99

7、91.026complica0.2340.38603670.5451.2630.5932.689obstruct0.3270.1773.3960.0650.7210.5091.021size0.0180.0069.4890.0021.0191.0071.031stage0.7550.2449.5720.0022.1291.3193.4351)对生存状况有影响的自变量有哪些?答案:group,size,stage2) 哪些是保护因素,哪些是危险因素?答案:size为保护因素,group、stage危险因素。3)如何解释有意义自变量的影响程度?(此解释与前述第二题解释相似。)5.生存资料的特点、生

8、存分析的目的。 蕴涵有结局和时间两个方面的信息; 结局为两分类互斥事件; 一般是通过随访收集得到,随访观察往往是从某统一时间点(如确诊、入院或实施手术等某种处理措施后)开始,观察到某规定时间点截止; 常因失访等原因造成某些研究对象的生存时间数据不完整;数据分完全数据和删失数据。 生存时间不服从正态分布,需用生存分析 描述生存过程 比较生存过程 生存过程的影响因素分析6.主成分分析与因子分析有何异同?1.区别: (1) 研究目的不同主成分分析,降维和消除多重共线性;因子分析:寻找内在结构,解释事物间的关联。(2) 应用条件不同:因子分析的条件更严格,样本量足够大,变量间存在相关性(Bratlet

9、ts 球形检验P0.7左右。(3) 模型不同 主成分分析:主成分为原变量的线性组合;因子分析模型:原变量为主因子和特殊因子的线性组合联系:因子分析采用主成分法,不进行因子旋转的分析结果与主成分分析结果一致。7.聚类分析和判别分析有什么异同点?聚类分析可以对样品进行分类,也可以对指标进行分类;判别分析只能对样品进行分类聚类分析事先不知道事物的类别,也不知道应该分几类;判别分析必须事先知道事物的类别,也知道分几类聚类分析不需要分类的历史资料,能直接对样品进行分类;判别分析需要分类历史资料(训练样品)去建立判别函数,然后才对样品进行分类。8. 简述简单相关、复相关、偏相关以及典型相关分析有何区别?简

10、单相关:两个连续型定量变量相关分析,说明相关关系的方向和密切程度;复相关分析:说明一个定量变量与另一组定量变量间的相互关系;偏相关:扣除其他变量的影响,分析两个定量变量间的相关关系;典型相关分析:一组定量变量和另一组定量变量间的相互关系。9.什么是多重共线性?如何识别?当发生共线性如何处理?答案:自变量之间存在着较强的线性关系,此现象称为自变量间的多重共线性(collinearity)。识别:1)回归系数的符号与由专业知识不符 2)变量的重要性与专业不符 3)整个方程有意义或决定系数R2高,但各自变量对应回归系数均没有统计学意义。解决共线性的主要方法: 筛选自变量 用主成分回归 岭回归4. 主成分分析的主要用途有哪些?主要用途:降维(减少变量的个数);消除严重多重共线性,进行主成分回归分析;综合评价,(确定各指标的权重);作为复杂数据分析中的中间环节,可以进一步进行聚类分析、判别等分析。-

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 小学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁