《《多元分析概述》PPT课件.ppt》由会员分享,可在线阅读,更多相关《《多元分析概述》PPT课件.ppt(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、宁夏医科大学公共卫生学院宁夏医科大学公共卫生学院流行病与卫生统计学系流行病与卫生统计学系郭忠琴郭忠琴推荐教材:推荐教材:本课程不指定专用教材,同学可自行选择符合自己要求的教材:本课程不指定专用教材,同学可自行选择符合自己要求的教材:n医学统计学,孙振球,人民卫生出版社,医学统计学,孙振球,人民卫生出版社,2002n多元统计分析,何晓群,中国人民大学出版社,多元统计分析,何晓群,中国人民大学出版社,2004n现代统计分析方法与应用,何晓群,中国人民大学出版现代统计分析方法与应用,何晓群,中国人民大学出版社,社,1999,研究生教材,研究生教材n实用多元统计分析,实用多元统计分析,RichardA
2、.Johnson著,陆璇著,陆璇等译,等译,清华大学出版社,清华大学出版社,2001,MBA教材教材n应用多元分析,王学民,第二版,上海财经大学出版社,应用多元分析,王学民,第二版,上海财经大学出版社,2004n医用多元统计方法,张家放主编,华中科技出版社,医用多元统计方法,张家放主编,华中科技出版社,2002年版年版n应用多元统计分析,高惠璇,北京大学出版社,应用多元统计分析,高惠璇,北京大学出版社,2005n本课程侧重于介绍多元统计方法的实际应用与动手能力。本课程侧重于介绍多元统计方法的实际应用与动手能力。小插曲:多元统计分析在文学研究中小插曲:多元统计分析在文学研究中的应用的应用n众所周
3、知,红楼梦一书共众所周知,红楼梦一书共120回,一般认为前回,一般认为前80回为曹雪芹所写,后回为曹雪芹所写,后40回为高鹗所续,长期以来对这个问题一直有争议。能否从数学上做出回为高鹗所续,长期以来对这个问题一直有争议。能否从数学上做出论证论证?n1985、1986复旦大学李贤平教授带领他的学生作了这项有意义的工作,复旦大学李贤平教授带领他的学生作了这项有意义的工作,他们创造性想法是将他们创造性想法是将120回看成是回看成是120个样本,然后确定与情节无关的虚个样本,然后确定与情节无关的虚词作为变量词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述所以要抛开情节,是因为在一般情况
4、下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的样的),计算出每一回里变量出现的次数,用,计算出每一回里变量出现的次数,用聚类分析法聚类分析法进行分类,果进行分类,果然将然将120回分成两类即前回分成两类即前80回为一类,后回为一类,后40回为一类,很形象地证实了不回为一类,很形象地证实了不是出自同一人的手笔。是出自同一人的手笔。n之后,又进一步分析前之后,又进一步分析前80回是否为曹雪芹所写回是否为曹雪芹所写?这时又找了一本曹雪这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完
5、全相同,断定为芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔。而后曹雪芹一人手笔。而后40回是否为高鹗写的呢回是否为高鹗写的呢?论证结果推翻了论证结果推翻了“后后40回回是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。方法支持了红学界观点,使红学界大为赞叹。第一章第一章多元分析概述多元分析概述第一节第一节 引言引言 第二节第二节 应用背景应用背景 第三节第三节 计算机在统计分析中的应用计算机在统计分析中的应用 第一节第一节引言引言在信息爆炸的今天,人
6、们已经意识到数据最值在信息爆炸的今天,人们已经意识到数据最值钱的时代已经到来。随着钱的时代已经到来。随着Internet的日益普及,各行的日益普及,各行各业都开始采用计算机及相应的信息技术进行管理各业都开始采用计算机及相应的信息技术进行管理和决策,这使得各企事业单位生成、收集、存储和和决策,这使得各企事业单位生成、收集、存储和处理数据的能力大大提高,数据量与日俱增,大量处理数据的能力大大提高,数据量与日俱增,大量复杂信息层出不穷。但是,大量信息在给人们带来复杂信息层出不穷。但是,大量信息在给人们带来方便的同时也带来一系列问题。比如:方便的同时也带来一系列问题。比如:第一节第一节引言引言n信息量
7、过大,超过了人们掌握、消化的能力;信息量过大,超过了人们掌握、消化的能力;n一些信息真伪难辩,从而给信息的正确应用带来困一些信息真伪难辩,从而给信息的正确应用带来困难;难;n信息组织形式的不一致性导致难以对信息进行有效信息组织形式的不一致性导致难以对信息进行有效统一处理等等。统一处理等等。n这种变化使传统的数据处理手段已经不能满足要求。这种变化使传统的数据处理手段已经不能满足要求。近近30年来,随着计算机应用技术的发展和科研生产年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析技术被广泛地应用于地的迫切需要,多元统计分析技术被广泛地应用于地质、气象、水文、医学、工业、农业和经济等
8、许多质、气象、水文、医学、工业、农业和经济等许多领域,已经成为解决实际问题的有效方法。领域,已经成为解决实际问题的有效方法。n多元统计分析是运用数理统计方法来研究解决多元统计分析是运用数理统计方法来研究解决多指多指标问题标问题的理论和方法。的理论和方法。n多元统计分析起源于上世纪初,多元统计分析起源于上世纪初,1928年年Wishart发表发表论文多元正态总体样本协差阵的精确分布,可论文多元正态总体样本协差阵的精确分布,可以说是多元分析的开端。以说是多元分析的开端。20世纪世纪30年代年代R.A.Fisher、许宝騄等人作了一系列得奠基性工作,使多、许宝騄等人作了一系列得奠基性工作,使多元分析
9、在理论上得到了迅速得发展。元分析在理论上得到了迅速得发展。n20世纪世纪40年代,多元统计分析在心理、教育、生物年代,多元统计分析在心理、教育、生物等方面有不少得应用,但由于计算量大,使其发展等方面有不少得应用,但由于计算量大,使其发展受到影响,甚至停滞了相当长得时间。受到影响,甚至停滞了相当长得时间。n20世纪世纪50年代中期,随着电子计算机得出现和发展,年代中期,随着电子计算机得出现和发展,使多元分析方法在地质、气象、医学、社会学等方使多元分析方法在地质、气象、医学、社会学等方面得到广泛得应用。面得到广泛得应用。n20世纪世纪60年代通过应用和实践又完善和发展了理论,年代通过应用和实践又完
10、善和发展了理论,由于新的理论、新的方法不断涌现又促使它的应用由于新的理论、新的方法不断涌现又促使它的应用范围更加扩大。范围更加扩大。n20世纪世纪70年代初期在我国受到各个领域的极大关注,年代初期在我国受到各个领域的极大关注,并在多元统计分析的理论研究和应用上也取得了很并在多元统计分析的理论研究和应用上也取得了很多显著成绩,有些研究工作已达到国际水平。多显著成绩,有些研究工作已达到国际水平。n在在20世纪末与本世纪初,人们获得的数据正以前所世纪末与本世纪初,人们获得的数据正以前所未有的速度急剧增加,产生了很多超大型数据库,未有的速度急剧增加,产生了很多超大型数据库,遍及超级市场销售、银行存款、
11、天文学、粒子物理、遍及超级市场销售、银行存款、天文学、粒子物理、化学、医学以及政府统计等领域,多元统计与人工化学、医学以及政府统计等领域,多元统计与人工智能和数据库技术相结合,已在经济、商业、金融、智能和数据库技术相结合,已在经济、商业、金融、天文等行业得到了成功的应用。天文等行业得到了成功的应用。n为了让人们更好的较为系统地掌握多元统计分析的为了让人们更好的较为系统地掌握多元统计分析的理论与方法,本门课程重点介绍多元正态总体的参理论与方法,本门课程重点介绍多元正态总体的参数估计和假设检验以及常用的统计方法。这些方法数估计和假设检验以及常用的统计方法。这些方法包括方差分析、判别分析、聚类分析、
12、主成分分析、包括方差分析、判别分析、聚类分析、主成分分析、因子分析、对应分析、典型相关分析等。因子分析、对应分析、典型相关分析等。n同时,我们将利用在我国广泛流行的同时,我们将利用在我国广泛流行的SPSS统计软件统计软件来实现实证分析,做到在理论的学习中体会应用,来实现实证分析,做到在理论的学习中体会应用,在应用的分析中加深理论。在应用的分析中加深理论。n多元统计分析方法的应用多元统计分析方法的应用n统计方法是科学研究的一种重要工统计方法是科学研究的一种重要工具,其应用颇为广泛。特别地,多具,其应用颇为广泛。特别地,多元统计分析方法常常被应用于自然元统计分析方法常常被应用于自然科学、社会科学等
13、领域的问题中。科学、社会科学等领域的问题中。n多元统计分析方法在经济管理、农多元统计分析方法在经济管理、农业、医学、教育学、体育科学、生业、医学、教育学、体育科学、生态学、地质学、社会学、考古学、态学、地质学、社会学、考古学、环境保护、军事科学、文学等方面环境保护、军事科学、文学等方面都有广泛的应用。这里我们例举一都有广泛的应用。这里我们例举一些多元统计分析的应用领域,让同些多元统计分析的应用领域,让同学从感性上加深对多元统计分析的学从感性上加深对多元统计分析的认识,请参看下表。认识,请参看下表。第二节第二节应用背景应用背景表表1.1统计方法和研究目的之间的关系统计方法和研究目的之间的关系问题
14、问题内容内容方法方法数据或结构性化简数据或结构性化简尽可能简单地表示所研究的现尽可能简单地表示所研究的现象,但不损失很多有用的信息,象,但不损失很多有用的信息,并希望这种表示能够很容易的并希望这种表示能够很容易的解释。解释。多元回归分析、聚类分析、多元回归分析、聚类分析、主成分分析、因子分析、主成分分析、因子分析、相应分析、多维标度法、相应分析、多维标度法、可视化分析可视化分析分类和组合分类和组合基于所测量到的一些特征,给基于所测量到的一些特征,给出好的分组方法,对相似的对出好的分组方法,对相似的对象或变量分组。象或变量分组。判别分析、聚类分析、主判别分析、聚类分析、主成分分析、可视化分析成分
15、分析、可视化分析变量之间的相关关系变量之间的相关关系变量之间是否存在相关关系,变量之间是否存在相关关系,相关关系又是怎样体现。相关关系又是怎样体现。多元回归、典型相关、主多元回归、典型相关、主成分分析、因子分析、相成分分析、因子分析、相应分析、多维标度法、可应分析、多维标度法、可视化分析视化分析预测与决策预测与决策通过统计模型或最优准则,对通过统计模型或最优准则,对未来进行预见或判断。未来进行预见或判断。多元回归、判别分析、聚多元回归、判别分析、聚类分析、可视化分析类分析、可视化分析假设的提出及检验假设的提出及检验检验由多元总体参数表示的某检验由多元总体参数表示的某种统计假设,能够证实某种假种
16、统计假设,能够证实某种假设条件的合理性。设条件的合理性。多元总体参数估计、假设多元总体参数估计、假设检验检验常用多元统计学方法常用多元统计学方法假设检验假设检验回归分析回归分析均向量比较多元方差分析线性回归非线性回归Logistic回归COX模型分类与归类分类与归类相关分析相关分析判别分析聚类分析多维标度法典型相关分析因子分析主成分分析1、城镇居民消费水平通常用八项指标来描述,如人均、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、衣着商品支出、人均日用品支出、人均燃
17、料支出、人均非商品支出。这八项指标存在一定的线性关系。人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行标归并到一起,这实际就是对指标进行聚类分析聚类分析。2、在医学科学研究中经常遇到多个指标的问题,指标在医学科学研究中经常遇到多个指标的问题,指标多了带来了统计分析的复杂性。如评价儿童生长发多了带来了统计分析的复杂性。如评价儿童生长发育,某研究者收集了一批儿童的身高、体重、胸围、育,某研究者收集了一批儿童的身高、体重、胸围、肺活量等肺活量等12个指标的资料,如何利用这个指标的资
18、料,如何利用这12个指标对个指标对儿童生长发育作出评价儿童生长发育作出评价。如何将这些具有错综复杂。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。学的评价。可用主成分分析和因子分析法。3、某一产品是用两种不同原料生产的,试问此两种原、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这
19、某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用指标之间的波动是否有显著差异。可用多元正态总多元正态总体均值向量和多变量方差分析的假设检验体均值向量和多变量方差分析的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投
20、资、生产可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以自治区、直辖市农民家庭人均纯收入的数据,可以用用相应分析相应分析,揭示全国农民人均纯收入的特征以及,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。各省、自治区、直辖市与各收入指标的关系。5、某医院已有、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果的病人资料,记录了他们每个人若干项症状指
21、标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利对于一个新的病人,当也测得这若干项症状指标时,可以利用用判别分析判别分析方法判定他患的是哪种病。方法判定他患的是哪种病。6、有、有100种酒,品尝家可以对每两种酒进行品尝对比,给出一种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这希望用这些得分数据来了解这100种酒之间的结构关系。这种酒之间的结构关系。这样的问题就可以用样的问题就可以用多维标度法多维标度法来解决。来解决。7、在地质学中,常常要研究矿石
22、中所含化学成分之间的关系。、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了设在某矿体中采集了60个标本,对每个标本测得个标本,对每个标本测得20个化学成个化学成分的含量。我们希望通过对这分的含量。我们希望通过对这20个化学成分的分析,了解矿个化学成分的分析,了解矿体的性质和矿体形成的主要原因。体的性质和矿体形成的主要原因。8、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对关系。对1000个类似的鱼类样本,如何根据测量的特征如体个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用
23、重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析聚类分析方方法将这类鱼分成几个不同品种。法将这类鱼分成几个不同品种。9、考古学家使用、考古学家使用判别分析判别分析对挖掘出来的人头盖骨的高、宽等对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。标,判别它是属于哪一类动物牙齿、是哪一个时代的。10、在高考招生工作中,我们知道每个考生的基本情况,通过、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还可以进一分析我们不仅可以
24、了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。象思维能力和记忆力等等对学习成绩的影响。第三节第三节计算机在多元统计分析计算机在多元统计分析中的应用中的应用n多元统计分析的数学计算比较复杂,多元统计分析的数学计算比较复杂,如果不借助于计算机,许多问题根本如果不借助于计算机,许多问题根本无法解决。在多元统计分析的教学中,无法解决。在多元统计分析的教学中,加强计算机的应用教学就显得尤为重加强计算机的应用教学就显得尤为重要。因此,本课程在案例分析中,大要。因此,本课程在
25、案例分析中,大部分采用国际上流行的通用统计软件部分采用国际上流行的通用统计软件包包SPSS来实现,这样不仅能体现多元来实现,这样不仅能体现多元统计分析方法的理论价值,而且能更统计分析方法的理论价值,而且能更好的显示出其应用价值。好的显示出其应用价值。设计与应用时应注意的问题:设计与应用时应注意的问题:A、样本含量一般至少是研究因素个 数510倍。B、指标的变换与数量化,量化指标 要注意大小顺序。C、按设计时确定的多元分析方法所 要求的条件收集资料。D、设计时为防止主要因素、设计时为防止主要因素OR指标指标的遗漏,在条件允许的情况下,的遗漏,在条件允许的情况下,尽可能多观察几个指标尽可能多观察几个指标OR因素,因素,分析前可椐调查结果舍去部分因分析前可椐调查结果舍去部分因素。素。E、分析时要通过回代与实践检验。、分析时要通过回代与实践检验。F、注意应用条件,如应用回归方、注意应用条件,如应用回归方程、判别式程、判别式要注意建立时条件相要注意建立时条件相 同。同。本章结束本章结束