《数学建模 多元统计分析引论幻灯片.ppt》由会员分享,可在线阅读,更多相关《数学建模 多元统计分析引论幻灯片.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数学建模 多元统计分析引论第1页,共58页,编辑于2022年,星期六统计软件的重要作用“计算机软件给统计学带来革命性变化”发表论文或进行科研课题时,注明统计软件和采用的统计分析方法.统计分析工具的选择:CHISSSAS,SPSS,STATA第2页,共58页,编辑于2022年,星期六实例实例携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?混杂因素混杂因素这中间存在混杂因素-吸烟客观事实,携带火柴不可能引起肺癌。第3页,共58页,编辑于2022年,星期六混杂因素的影响混杂因素的影响图1.1危险因素、混杂因素和结果的关系携带火柴肺癌吸烟
2、第4页,共58页,编辑于2022年,星期六 实例解析实例解析4 喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系的研究。关系的研究。有有人人观观察察发发现现喝喝咖咖啡啡的的人人,很很多多人人患患MI,这这种现象是表象还是内在因果关系的?种现象是表象还是内在因果关系的?数数据据来来自自2000年年,小小儿儿科科邀邀请请一一位位美美国国医医学学及及生生物物统统计计学学教教授授来院讲学的例子。来院讲学的例子。第5页,共58页,编辑于2022年,星期六 研究者调查研究者调查MI及非及非MI病人各病人各150例,得到如例,得到如下数据。表下数据。表1.1 MI NoMI%Coffee 90 60 60No co
3、ffee 60 90 40 优势比优势比:OR=90*90/(60*60)=2.25 Pearson chi2(1)=12.0,P=0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?第6页,共58页,编辑于2022年,星期六 研究者怀虑结论,考虑到其中可能混杂其它因素,研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞如吸烟对喝咖啡与心肌梗塞MI间关系的影响,进一步间关系的影响,进一步分层分析得到。分层分析得到。表表 控制吸烟因素的干扰后结果控制吸烟因素的干扰后结果 Smoker Nosmoker
4、MI NoMI%MI NoMI%Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比优势比 OR=1,OR=1 P=1.00,P=1.00第7页,共58页,编辑于2022年,星期六表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系关系说明当存在混杂因素时说明当存在混杂因素时,单因素分单因素分析结论并不科学。析结论并不科学。第8页,共58页,编辑于2022年,星期六案例案例:研究生招生与性别的关系研究研究生招生与性别的关系研究第9页,共58页,编辑于2022年,星期六案例讨论研究
5、生招生与性案例讨论研究生招生与性别的关系研究别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表.结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。第10页,共58页,编辑于2022年,星期六混杂因素的定义混杂因素的定义 当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。l上两例中,混杂因素是吸烟第11页,共58页,编辑于2022年,星期六排除混杂因素的两种方法 1、分层分析、分层分析 2、多
6、元统计分析、多元统计分析第12页,共58页,编辑于2022年,星期六分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。1分层分析方法-控制混杂因素对结果的影响第13页,共58页,编辑于2022年,星期六分层分析的优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。第14页,共58页,编辑于2022年,星期六生命在于运动。运动有利于长寿流水不腐。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假
7、象呢?实例解析实例解析运动与寿命关系的研究第15页,共58页,编辑于2022年,星期六许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。运动与人的寿命的关系第16页,共58页,编辑于2022年,星期六美国美国Aerobics中心的追踪研究中心的追踪研究 在19701989年间,它们追踪观察25,341男性和7084女性,研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如
8、表1.1。Blair,S.N.,Kampert,J.B.,Kohl,H.W.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinmenandwomen.”JAMA1996;276:205-10第17页,共58页,编辑于2022年,星期六表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组)指标 生存 死亡 (n=24,740)(n=601)年龄(SD)42.7(9.7)52.1(11.4)*体重指数 26.0(3
9、.6)26.3(3.5)收缩压 121.1(13.5)130.4(19.1)*总胆固醇 213.1(40.6)228.9(45.4)空腹血糖 100.4(16.3)108.1(32.0)第18页,共58页,编辑于2022年,星期六l运动量(%)l低20.141.6l中42.039.1l高37.919.3*l冠心病家族史25.433.8*l吸烟26.336.9*l异常心电图6.926.3*l慢性病18.440.3*第19页,共58页,编辑于2022年,星期六分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。
10、但表1.1并没有回答我们的基本问题:运动是否独立地延长寿命?它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。我们应排除排除混杂因素的影响。第20页,共58页,编辑于2022年,星期六分层分析法表1.4Aerobics中心追踪研究中全因死亡患者吸烟和体质的分层分析每万人年分层相对危险度死亡数(CI)吸烟低运动量48.01.63(1.26-2.13)*中/高运动量29.41.0(参照组)不吸烟低运动量44.02.19(1.77-2.70)*中/高运动量20.11.0(参照组)可见低运动量组死亡率高于中/高运动量组的死亡率,这一分层分析表明运
11、动的作用不依赖于吸烟状态。第21页,共58页,编辑于2022年,星期六但是,有可能影响运动和长寿之间关系的其它变量是怎样的?你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量吸烟状态、年龄、体重(正常/异常),你将需要在8个组中分析运动和死亡率的关系。如果分层分析6个变量吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是不是),你将需要在64个组中分析运动和死亡率的关系。第22页,共58页,编辑于2022年,星期六多因素分析法为判断运动是否独立地与死亡有关,研究者们运用了COX比例 风 险 分 析(propor
12、tional hazardsanalysis)的多元分析方法,结果如表1.2。准许引自:Blair,S.N.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-cause mortality in women.”JAMA 1996;276:205-10.Copyright 1996,American Medical Association.Additionaldataprovidedbyauthors.第23页,共58页,编辑于2022年,星期六表1.5Aerobi
13、cs中心追踪研究全死亡率危险因素的多元分析自变量死亡率调整相对危险度RR(百万分数)(95%CI)运动量低38.11.52(1.28-1.82)*中/高25.01.0(参照组)吸烟状况吸烟39.41.65(1.39-1.97)*不吸烟23.91.0(参照组)第24页,共58页,编辑于2022年,星期六收缩压140mmHg35.61.30(1.08-1.58)*140mmHg26.11.0(参照组)胆固醇240mg/dl35.11.34(1.13-1.59)*240mg/dl26.11.0(参照组)冠心病家族史有29.91.07(0.90-1.29)无27.81.0(参照组)体重指数27Kg/m
14、228.81.02(0.86-1.22)27Kg/m228.21.0(参照组)第25页,共58页,编辑于2022年,星期六空腹血糖120mg/dl34.41.24(0.98-1.56)120mg/dl27.91.0(参照组)异常心电图有44.41.64(1.34-2.01)*无27.11.0(参照组)慢性疾病有41.21.63(1.37-1.95)*无25.31.0(参照组)第26页,共58页,编辑于2022年,星期六表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡
15、的危险性是高运动人的1.52倍。这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。运动与人的寿命的关系第27页,共58页,编辑于2022年,星期六实例解析吸烟和冠状血管疾病再通术后的预后间的关系Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.5Hasdai,D.,Garratt,K.N.,Grill,D.E.,Lerman,A.,Homes,D.R.“Effectofsamokingstatuso
16、nthelong-termoutcomeaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl,J.Med.1997;336:755-61.第28页,共58页,编辑于2022年,星期六表1.6吸烟状况和死亡危险性的两变量关系组别死亡相对危险度RR(95%CI)不吸烟1.0(参照组)以前吸烟1.08(0.92-1.26)刚戒烟0.56(0.40-0.77)*持续吸烟0.74(0.59-0.94)*引自:D.,et al.“Effect of smoking status on the long-termoutcomeaftersu
17、ccessfulpercutaneouscoronaryrevascularization.”N.Engl.J.Med.1997;336:755-61.第29页,共58页,编辑于2022年,星期六持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望)在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论”是 什 么 原 因 导 致 这 一“悖 论”呢?Barbash,G.L.,Reiner,J.,White,H.D.,Et al.“Evaluation ofparadoxical beneficial eff
18、ects of smoking in patients receivingthrombolytictherapyforacutemyocardialinfarction:MechanismsofthesmokersparadoxfromtheGUSTO-Itrial,withangiographicinsights.”J.Am.Coll.Cardiol.1995;26:1222-9.第30页,共58页,编辑于2022年,星期六表1.5人口学及临床因素与吸烟状况的关系不吸烟以前吸烟刚戒烟持续吸烟年龄SD(年)6711651056105511心绞痛病程(月)4166517221462955糖尿病,
19、%2118810高血压,%54483839冠状动脉疾病,%一枝血管50515755二枝血管36363436三枝血管1413109第31页,共58页,编辑于2022年,星期六表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。第32页,共58页,编辑于2022年,星期六表1.6比较一元统计与多元统计吸烟状况与死亡危险性的关系不吸烟以前吸烟刚戒烟持续吸烟一元统计的危险相对度1.01.08
20、0.560.7495%CI(参照组)(0.92-1.26)(0.40-0.77)(0.59-0.94)多元统计的相对危险度1.01.341.211.7695%CI(参照组)(1.14-1.57)(0.87-1.70)(1.37-2.26)第33页,共58页,编辑于2022年,星期六表1.6将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比.在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者更加灵敏的结果。一元统计和多元分析的差别表明混杂因素是存在的。第34页,共58页,编辑于2022年,星
21、期六多因素分析与分层分析的比较当你用分层分析每增加一个变量,你将倍增分组的数量。一方面产生大量的打印结果、需要整本书报告你的结果。另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。第35页,共58页,编辑于2022年,星期六多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。多因素分析与分层分析的比较第36页,共58页,编辑于2022年,星期六*混杂因素与干预因素关系 当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混
22、杂因素。一个干预因素是出现结果的原因。第37页,共58页,编辑于2022年,星期六 Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不?这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。第38页,共58页,编辑于2022年,
23、星期六 血压升高 体重指数增加 高胆固醇血症 心肌梗塞酒精消费第39页,共58页,编辑于2022年,星期六统计学不能区别混杂和干预变量统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。第40页,共58页,编辑于2022年,星期六红楼梦众所周知,红楼梦一书共众所周知,红楼梦一书共120120回,自从胡回,自从胡适作红楼梦考证以来,都认为曹雪芹作适作红楼梦考证以来,都认为曹雪芹作前前8080回,后回,后4040回为高鹗所续,长期以
24、来对这回为高鹗所续,长期以来对这个问题一直有争议。红楼梦的作者是谁,个问题一直有争议。红楼梦的作者是谁,当然由红学家来考证。但是我们是否可以用当然由红学家来考证。但是我们是否可以用数学方法进行研究,做出论证或者得出一些数学方法进行研究,做出论证或者得出一些新的结果来?新的结果来?第41页,共58页,编辑于2022年,星期六1987年复旦大学李贤平教授带领他的学生作了这项有意义的工作,他们创造性想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的),数出每一回里
25、变量出现的次数,作为数据,用多元分析中的聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。第42页,共58页,编辑于2022年,星期六之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔,而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。第43页,共58页,编辑于2022年,星期六 统计分析是统计活动的一个重要组成部分。是统计工作的最后一个阶段,更是
26、统计过程中最有价值的一个环节,是服务于研究目的,为解决问题进行的一种认识活动。现代统计分析与传统统计分析相比,其最突出的特点是:先定性地提出问题,然后使用功能强大的统计分析软件对数据进行深入的定量分析,并且在定量分析的基础上得出有价值的定性结论。即:定性-定量-定性的综合分析过程。现代统计分析是在传统的统计分析的基础上发展起来的,是传统统计分析方法的改造和深化,并结合现代电子技术,运用统计分析软件对统计资料、数据进行处理。第44页,共58页,编辑于2022年,星期六什么是多元统计分析什么是多元统计分析?在工业、农业、医学字、气象、环外境以及经济管理等诸多领域中,常常需要同时观测多个指标。例如,
27、要衡量一个地区的经济发展,需观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。第45页,共58页,编辑于2022年,星期六在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。上述指标,在数学上通常称为变量,由于每次观测
28、的指标值是不能预先确定的,因此每个指标可用随机变量来表示。第46页,共58页,编辑于2022年,星期六 如何同时对多个随机变量的观测数据进行有效地分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律。第47页,共58页,编辑于2022年,星期六如果说一元统计分析是研究一个 随机
29、变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。实践证明,多元分析是实现做定量分析的有效工具。第48页,共58页,编辑于2022年,星期六(一)研究对象以及主要内容研究对象多元分析是以多维随机变量的内在联系及统计规律为其研究对象。是统计中
30、讨论多维随机变量的统计方法的总称。主要内容从形式上看,一类是单变量常用的统计方法在多维随机变量情况下的应用;另一类是对多维变量本身进行研究的一些特殊方法。第49页,共58页,编辑于2022年,星期六具体内容包括 多元回归分析 主成分分析 因子分析 聚类分析 判别分析 对应分析 典型相关分析 时间序列分析 马尔科夫概型分析 第50页,共58页,编辑于2022年,星期六一元统计与多元统计简单比较一元统计与多元统计简单比较主要内容一元多元随机变量一维随机变量多维随机变量统计分布一元分布多元分布参数估计似然估计、最小二乘估计、矩估计似然估计、最小二乘估计、矩估计假设检验U检验、t检验、F检验卡方检验T
31、2检验、F检验卡方检验统计分析方法方差分析回归分析回归分析主成分分析因子分析聚类分析判别分析典型相关分析等第51页,共58页,编辑于2022年,星期六统计分析方法在经济统计中具体应用领域统计分析方法在经济统计中具体应用领域对多个变量进行降维处理,而选择数目较少的变量子集合;主要方法:主成分分析、因子分析、对应分析等。对现象进行分类研究、分类处理、构造分类模式主要方法:聚类分析、判别分析等建立经济模型和利用模型进行外推;主要方法:预测模型回归分析方法 描述模型聚类分析方法研究时间序列变化趋势主要方法:时间序列分析方法、马尔科夫概型分析分析方法等研究经济现象之间相互关系主要方法:典型相关分析第52
32、页,共58页,编辑于2022年,星期六统计分析方法在经济统计中的运用的统计分析方法在经济统计中的运用的一般步骤一般步骤统计分析方法要经过建立模型、进行参数估计、假设检验以及预测控制等步骤,具体是:进行定性分析,设计理论模型抽取样本,并取得样本统计资料对描述样本的指标进行统计分析,选择最佳的统计指标根据最佳指标的样本数据,估计参数,建立数量模型对数量模型进行检验、优化以及运用第53页,共58页,编辑于2022年,星期六多元分析起源于本世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。20世纪30年代R.A.Fisher、H.Hotelling、S.
33、N.Roy、许宝禄等人作了一系列的奠基性工作,使多元分析在理论上得到了迅速的发展。40年代在心理、教育、生物等方面有不少的应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长的时间。发展历史第54页,共58页,编辑于2022年,星期六50年代中期,随着电子计算机的出现和发展,使多元分析方法在地质、气象、医学、社会学等方面得到广泛的应用。60年代通过应用和实践又完善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。70年代初期在我国才受到各个领域的极大关注,20余年来我国在多元分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平,并已形成一支科技队伍,
34、活跃在各条战线上。第55页,共58页,编辑于2022年,星期六多元分析包括的主要内容:有多元正态总体多元分析包括的主要内容:有多元正态总体的参数估计和假设检验以及常用的统计方法。的参数估计和假设检验以及常用的统计方法。这些方法是多元数据图表示法、聚类分析、这些方法是多元数据图表示法、聚类分析、判别分析、主成分分析、因子分析、对应分判别分析、主成分分析、因子分析、对应分析、多重多元回归分析、典型相关分析、路析、多重多元回归分析、典型相关分析、路径分析、多维标度法等。本书重点介绍多元径分析、多维标度法等。本书重点介绍多元分析中常用的各种方法分析中常用的各种方法.由于时间关系,本由于时间关系,本科仅仅介绍:判别分析、聚类分析、主成分科仅仅介绍:判别分析、聚类分析、主成分分析、因子分析和典型相关分析。分析、因子分析和典型相关分析。第56页,共58页,编辑于2022年,星期六Any Questions?第57页,共58页,编辑于2022年,星期六谢谢谢谢各各位位!第58页,共58页,编辑于2022年,星期六