《第1章 多元统计分析概述.ppt》由会员分享,可在线阅读,更多相关《第1章 多元统计分析概述.ppt(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多元统计分析多元统计分析党耀国党耀国经济与管理学院经济与管理学院I第一章 绪论n一、引言 n二、多元统计分析的应用背景 多元统计分析是运用数理统计的方法来研究解决多变量(多多元统计分析是运用数理统计的方法来研究解决多变量(多指标)问题的理论和方法,它是一元统计学的推广。指标)问题的理论和方法,它是一元统计学的推广。客观世界中的任何事物的形成,变化和发展都是受多种因客观世界中的任何事物的形成,变化和发展都是受多种因素的影响,而各种因素之间又存在着广泛而又错综复杂的联系。素的影响,而各种因素之间又存在着广泛而又错综复杂的联系。例如疾病的产生就受到多种因素的支配,各种病因之间也常存例如疾病的产生就受
2、到多种因素的支配,各种病因之间也常存在着一定的内在联系和相互制约。要了解一个国家、省、市经在着一定的内在联系和相互制约。要了解一个国家、省、市经济发展的类型需要观测很多指标,如人均国民收入、人均工农济发展的类型需要观测很多指标,如人均国民收入、人均工农业产值、业产值、R&D经费支出占经费支出占GDP比重、万人科技活动人员数等;比重、万人科技活动人员数等;要衡量一个地区经济发展,需要观测的指标有社会消费品零售要衡量一个地区经济发展,需要观测的指标有社会消费品零售总额、城镇居民人均可支配收入、农村居民人均纯收入、劳动总额、城镇居民人均可支配收入、农村居民人均纯收入、劳动生产率、万元产值能耗、财政收
3、入等。对于这些指标,我们需生产率、万元产值能耗、财政收入等。对于这些指标,我们需要分析哪些指标是主要的,本质的,哪些指标是次要的,片面要分析哪些指标是主要的,本质的,哪些指标是次要的,片面的的,它们之间的相互关系怎样等问题。多元统计分析正是为了解它们之间的相互关系怎样等问题。多元统计分析正是为了解决这些问题而产生的。决这些问题而产生的。1引言引言 多元统计分析起源于20世纪初,1928年Wishart发表论文多元正态总体样本协差阵的精确分析,可以说是多元统计分析的开端。随后多元统计分析得到了迅速发展,40年代多元统计分析在心理、教育、生物等方面有不少应用,但由于计算量大,使其发展受到一定的影响
4、。50年代中期,随着电子计算机的出现和发展,多元统计分析在地质、气象、医学、社会学等方面得到应用。60年代通过应用和实践,完善和发展了理论,新的理论和方法不断涌现,使他的应用范围更加扩大。70年代初期多元统计分析在我国才得到各个领域的关注,并在理论研究和应用上取得了显著成绩,有些研究工作已达到了国际水平,并形成了一支科技队伍,活跃在各条战线上。进入21世纪,人们获得的数据正以前所未有的速度急剧增加,产生了许多超大型数据库,其遍及各个行业,这就为多元统计分析与其它学科融合提供了重要的平台。近几十年来,随着计算机应用技术的发展和科研生产的迫切需要,多元统计分析已被广泛地应用于工业、农业、医学、地质
5、、气象、水文、环境以及经济、管理等诸多领域,成为解决实际问题的有效方法。在理论研究方面,统计学在广泛吸收和融合相关学科的新理论,不断开发应用新技术和新方法,深化和丰富了统计学传统领域的理论和方法研究,并拓展了统计学研究的新领域。具体表现在:n1)统计学和计算机科学相互促进。n2)统计理论与分析方法不断发展。n3)统计调查方法的创新。2、多元统计分析的应用背景问题内容方法数据或结构性简化尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够解释所研究问题的现象。多聚类分析、主成分分析、因子分析分类和组合基于研究问题,对测量到的一些现象特征,给出好的分组方法,对相似的对象或变量分
6、组。聚类分析、判别分析、主成分分析、因子分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现的。典型相关分析、多元回归分析、主成分分析、因子分析预测与决策通过统计模型或最优准则,对未来进行预测或判断。多元回归分析假设的提出与检验检验多元总体参数的某种假设,并验证该假设的合理性多元总体参数估计、假设检验多元统计分析方法与研究内容之间的关系多元统计分析方法与研究内容之间的关系 n一、经济学一、经济学n(1)在社会经济领域中存在着大量分类问题,如对我国31个省市自治区城镇居民收支分布规律进行分析,一般不是逐省市自治区去分析,而较好地做法是选取能反映城镇居民收支分布规律的代表性指标,如
7、城镇居民收入来源及支出指标(在收入方面,如工资性收入、财产性收入等;在支出方面,如食品、住房、生活用品、文化等),根据这些指标对全国各省市自治区城镇居民收支分布情况进行分类,然后根据分类结果对城镇居民收支状况进行综合评价。n(2)研究国民收入(工农业国民收入、运输业国民收入等)与投资(生产建设投资、劳动者人数等)之间的相关关系。研究经济效益与资金、利税等主要财务指标之间的关系。这些可以使用相关分析,也可以利用典型相关分析法。n(3)对我国31个省市自治区经济效益综合评价,我们需要选择很多指标,如固定资产投资完成额、工业全员劳动生产率、工业销售利税率、万元工业产值能耗、职工工资总额等。如何将这些
8、有错综复杂关系的指标综合成几个减少的指标来分析和解释问题,有不至于是所研究的问题信息丢失过多。可利用主成分分析和因子分析方法。n(4)研究国民收入的生产、分配与最终使用的关系。如研究我国财政收入与国民收入、工农业总产值、人口、就业、固定资产投资等因素的关系,可利用回归分析方法建立预测模型,对今后的财政收入进行预测。二、工业二、工业(1)如对我国31个省市自治区独立核算工业企业经济效益进行分析时,选取能反映企业经济效益的代表性指标,如百元固定资产实现利税、资金利税、产值利税率等,根据这些指标对全国各省市自治区进行分类,然后根据分类结果对企业经济效益进行综合评价,就易于得出科学的分析。(2)考察某
9、产品质量指标(多个)与影响产品质量的因素(多个)之间的关系。在商品需求研究中,考察商品销售量与商品价格、消费者收入等之间的关系,可以利用回归分析方法建立数学模型进行分析。(3)研究某产品使用不同原料进行生产时,原料对产品质量有无显著影响;研究某商场今年与以前年份经营状况在经营指标方面有没有显著性的差异?可以利用多元正态总体均值向量和协差阵的假设检验进行分析。n三、农业三、农业n(1)某地区种植某种农作物,有多种种子在该地区播种,有多种化肥,试判断各种种子与化肥对该农作物产量的影响。n(2)有n个地区,有m种农作物,每个地区可以种植多种农作物,每种农作物在不同的地区的产出不同,可以通过比较分析每
10、个地区适合种植那些农作物,使生产效率最高。n四、教育学四、教育学n(1)某高中对参加高考的考生成绩进行预测分析。根据以往大量的资料,分析考生高考成绩与高中学习期间成绩之间的相关关系,并由此由考生在高中学习期间的成绩预测考生的综合成绩。n(2)研究某大学对该校在校学生的学习成绩与该生高考入学成绩的各门课程成绩之间的关系进行分析。还可以研究该校新生录取成绩次序的排队的最佳方案。还可以研究该校高考入学成绩的排队问题,可以按录取总成绩排队,也可以按其它方式进行排队,比如某工科院校,直接按总成绩进行排队并不是很合适,可以根据某些要求,对数学、物理、化学、英语等课程进行加权求和排队更合适一些,在此有些课程
11、权重可能大一些,在此有些课程权重可能小一些,他们之间的权重如何确定问题。n(3)某高校根据n个学生在一学年的m门课程成绩,对学生学习成绩进行分类,以便确定该校学生奖学金类别。五、医学五、医学(1)由于疾病的产生就受到多种因素的支配,各种病因之间也常存在着一定的内在联系和相互制约,这就需要分析哪些因素是主要的,本质的,哪些因素是次要的,片面的,它们之间的相互关系怎样等问题。(2)我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别资料利用判别分析方法建立诊断的准则,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式进行诊断。(3)可以根据病人的多种症状(体
12、温、恶心、呕吐、腹部压疼感等),来判断该病人患何种疾病。六、社会学六、社会学(1)某公司对招聘人员的知识和能力进行测评,主要测评六个方面的内容:语言表达能力、逻辑思维能力、判断事物的敏捷和果断程度、思想修养、兴趣爱好、生活常识等,我们根据这六个方面的内容对招聘人员进行综合评价,决定是否录取。(2)某调查公司从一个大型零售公司随机调查了n人,测量了5个职业特性指标和7个职业满意变量。职业特性指标如用户反馈、任务重要性、任务多样性、任务特殊性、自主权,个职业满意变量如主管满意度、事业前景满意度、财政满意度、工作强度满意度、公司地位满意度、工作满意度、总体满意度,讨论两组指标之间是否相联系。七、体育学七、体育学(1)如何对影响运动员成绩的多项心理、生理测试指标(简单反映、时间知觉、综合反映等)进行主要因素分析。(2)研究运动员体能指标(反复横向跳、立定体前屈、俯卧上体后仰等)与运动能力测试指标(耐力跑、跳远、投球等)之间的相关关系。八、气象学八、气象学根据气象站资料,研究某地降雨量与前一天的气温、气压、湿度、风速、风向等之间的关系;有n个地区的降雨量、气温、湿度等指标,根据这些指标判断这n个地区所属的气候类型。九、其它九、其它多元统计分析方法在其它很多领域也有广泛的应用,比如环境保护、地质学、考古学、地震预报、军事科学、生态学、文学、心理学等。