《秦皇岛农业发展状况统计分析4226374.doc》由会员分享,可在线阅读,更多相关《秦皇岛农业发展状况统计分析4226374.doc(53页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、【精品文档】如有侵权,请联系网站删除,仅供学习与交流秦皇岛农业发展状况统计分析4226374秦皇岛农业发展状况统计分析燕山大学毕业设计(论文)任务书学院:理学院 系级教学单位:统计学系 学号110108020051学生姓名张鹏专 业班 级11级数理统计题目题目名称秦皇岛市农业发展状况统计分析题目性质1.理工类:工程设计 ( );工程技术实验研究型( );理论研究型( );计算机软件型( );综合型( )。2.文管类( );3.外语类( );4.艺术类( )。题目类型1.毕业设计( ) 2.论文()题目来源科研课题( ) 生产实际( )自选题目() 主要内容1搜集秦皇岛市各粮食总产量、农业总产值
2、、耕地面积、农民人均纯收入等指标数据,建立指标体系;2. 运用统计分析方法以及SAS软件,对数据进行统计分析;3. 对结果进行分析,对秦皇岛市农业发展状况得出精确的结论,并给出合理提升研究建议。基本要求1. 能够围绕选题独立查找文献,搜集资料,整理资料,能正确理解、翻译外文文献;2学会用所学的统计分析知识和相关软件去解决实际问题,提高解决问题、分析问题的能力;3. 认真分析数据,撰写符合学校规定要求和格式的论文;4. 按计划圆满完成毕业论文任务。参考资料1 李子奈,潘文卿.计量经济学.北京:高等教育出版社2 张晓冉.统计分析及其SAS实现.北京:清华大学出版社周 次35周613周1415周16
3、17周应完成的内容查阅资料,确定课题内容,了解目前课题的发展和应用情况,撰写并提交开题报告。整理资料,学习搜集到的相关文献资料。搜集数据,学习相关统计方法,撰写论文初稿检查论文初稿,修改毕业论文,整理并打印论文整理论文的写作思路,准备答辩指导教师:吴俊波职称:讲师 2015 年 3月 14 日系级教学单位审批: 年 月 日.精品文档.本科毕业论文摘要本文对从农业发展效率的角度对秦皇岛的农业发展状况进行统计分析。首先介绍了农业发展以及发展效率的基本概念,并且着重介绍了影响农业发展效益的影响因素。然后介绍了主成分分析和数据包络分析的理论基础和使用方法。接着确立了评价指标体系,并将指标体系分为输入指
4、标和输出指标两类。然后,分别对输入和输出指标的数据通过SAS软件进行主成分分析方法的处理和分析,对两个指标体系进行了降维。在此基础上采用数据包络分析(DEA)的方法,通过DEAP软件对通过主成分分析法处理后的输入和输出指标数据进行了计算,得到了秦皇岛从2010年到2014年期间,农业发展的综合效率、纯技术效率和规模效率,并根据数据结果秦皇岛的农业发展状况进行了分析。最后,提出了针对秦皇岛农业发展的若干建议。关键词 农业发展;主成分分析;SAS;数据包络分析AbstractThis paper analyzes the agricultural development of Qinhuangda
5、o from the perspective of agricultural development efficiency. Firstly, the basic concepts of agricultural development as well as the development efficiency are introduced, and the factors that affect the agricultural development benefit are introduced.Then, the theoretical basis and the method of u
6、sing principal component analysis and data envelopment analysis are introduced.Then, the evaluation index system is established, and the index system is divided into two categories: the input index and the output index.Then, the data of the input and output indicators are processed and analyzed by S
7、AS software, and the dimension of the two index systems is reduced. On the basis of data envelopment analysis (DEA) method, the deap software by principal component analysis method of input and output data were calculated, Qinhuangdao from 2010 to 2014 during the comprehensive efficiency of the agri
8、cultural development, pure technical efficiency and scale efficiency and according to the data of Qinhuangdao agricultural development were analyzed by means of.Finally, some suggestions for the development of agriculture in Qinhuangdao are put forward.Keywords Agricultural development;Principal com
9、ponent analysis;SAS;Data Envelopment Analysis目 录摘要IAbstractII第1章 绪论11.1 课题研究的背景和意义11.1.1 课题研究背景11.1.2 课题研究的意义21.2 课题的国内外研究现状31.2.1 课题研究现状陈述31.2.2 研究方法评述41.3 本文的主要内容和创新点5第2章 基础知识72.1 农业发展基础知识综述72.1.1 农业发展效益的相关概念72.1.2 农业发展状况的影响因素72.2 相关统计学基础知识综述82.2.1 主成分分析基本知识82.2.2 主成分几何解释112.2.3 主成分的导出与计算步骤132.3 数
10、据包络分析基础知识综述182.3.1 数据包络分析简介182.3.1 数据包络分析理论介绍模型192.4 本章小结21第3章 秦皇岛农业发展状况综合评价分析223.1 农业发展效益评价的指标体系确立223.2 主成分分析法对秦皇岛农业发展效益评价指标的分析243.2.1 数据的来源及处理243.2.2 利用主成分分析法的分析过程243.2.2.1 输入指标的主成分实例分析243.2.2.2 输出指标的主成分分析273.3 数据包络分析法对秦皇岛农业发展状况效益评价的分析293.3.1 基于包络分析方法的农业发展状况效益数值计算293.3.2 秦皇岛农业发展状况效益综合评价分析303.4 对秦皇
11、岛农业发展的若干建议323.5 本章小结33结论34参考文献35致谢37附录1 开题报告38附录2 原始数据和运行程序43第1章 绪论1.1 课题研究的背景和意义1.1.1 课题研究背景 建国之后,中国一直在把农业发展看做重中之重,并在农业的发展上有着让世界震惊的成就。中国的人数增长巨大,现如今已是13亿多人数的国家,但农业的发展远远超过了人口数量上的增长,保证了人们的食物充足和各项基本需求。1949年建国之后,我国当时的粮食总量是1亿多吨,到1998年时增长了4倍之多,粮食总数的净增长超过4亿吨,平均每年增长超过8万吨。中国的耕地面积占世界的百分之十,但却用这些耕地养活了世界百分之五的人口,
12、可以说是个奇迹。从数据来看,我国从1985年之后,总体上处于农产品的净出口国,再到1995年之后,我国粮食也处于净出口状态1。在整个国家的农业发展一片大好前景的同时,秦皇岛市的农业发展状况也处于一个比较高的增长状态。 2013年,农业生产形势良好。积极施行“做精农业”整体方针,加大力度增加效益、增强基础、稳定生产、提高素质,整个秦皇岛的农业发展状况取得一个非常好的势头。整个年份农产品总价值达305.53亿元,超过2012年4.4个百分点。农作物长势良好,取得丰收,这是因为2013年雨水充沛,适宜农作物的生长。另一个原因是2012年发生了水灾,使得粮食产量不高,基数比较低使得2013年粮食产量增
13、长率很高,2013年整年的粮食总产量超过84万吨。但是在接下来的一年降雨非常少,干旱的天气影响到了农作物的生长,但秦皇岛依然稳定了农业的增长,农业发展依旧略有提高。整个秦皇岛的农业总价值315亿元,仍然能较之去年增长3.8个百分点。此年秦皇岛市粮食农作物耕种面积147518公顷,较之去年略有增长,提高了不到一个百分点。粮食农作物产量85万余吨,较之去年增加0.89万吨,增长1.1个百分点。然而,我们也应该看到,经过多年的生产和积累,秦皇岛市的农业发展有了一定的基础,但由于耕作水平不高,科技含量低,使得农业投入产出的比率比较低2。农业发展结构的进一步完善,使本地的农业发展优势体现出来,不适合农业
14、发展方面的因素积极回避,才能使农业发展更上一层楼,这才是秦皇岛积极去发展农业任务中的重中之重 3。1.1.2 课题研究的意义 农业的发展才能使农民生活条件改善,才能保证社会各个行业能协调、同步、快速的进步发展,保证人们的生活水平提高,社会结构更科学、合理,保证社会的治安稳定。随之而来的,是全国人民的共享社会发展带来的实惠。目前来看,各个行业正朝着科学化和现代化发展,农业发展也应该跟紧这个趋势。农业发展的现代化能够促使城镇化、工业化、现代化加快速度。当今的第二产业结构里,很多轻工业用农产品作为原材料,在食品加工和制造行业更是建立在农产品的基础上。所以要实现社会的工业化,就必须加快农业发展,积极实
15、现现代化,并且对农产品的加工更深一步,增加农产品的内在价值。因此可见,很多行业的发展是依靠农业的发展来作为基础的。最近几年秦皇岛农业发展的整体势头良好,加大力度增加效益、增强基础、稳定生产、提高素质,整个秦皇岛的农业发展状况取得一个非常好的进步。然而,我们也应该看到,经过多年的努力发展,秦皇岛市的农业状况有了一定的成就,但受限于科技水平等,资源配置问题等等,秦皇岛的农业还有一定缺陷,是可以经过结构调整,创造一个更好的成就。因此,对秦皇岛农业发展状况进行准确的综合评价分析,对于合理解决当前秦皇岛农业发展问题具有指导性的意义。只有对秦皇岛农业发展状况进行统计、分析。做好评价分析工作,秦皇岛的发展才
16、能把握好目前深化改革的契机,做好短期与长期衔接上,选准突破口,推动各项改革顺利进行4。利用结果科学的对农业结构进行合理的调整。有利于秦皇岛农业向现代化、规模化和产业化方向发展,农民都变成专业农民,农户都变成专业的现代化的专业大户,农业营销变为专业化营销5。1.2 课题的国内外研究现状1.2.1 课题研究现状陈述在早期时候国外已经有对农业发展状态的研究,开始阶段是以经济指标作为出发点进行的研究 6。最开始时是农业发展动态理论,是由政治经济学家李嘉图提出的,这一套理论肯定了农业新技术和农业资源的积累在农业发展中的作用。农业的进一步发展,是建立在土地的获得或者其他农业发展资料的获得的基础上的。在李嘉
17、图之后,科克伦和约翰逊用了很长时间研究出农业技术传播与利用体系理论,表明每次有关农业的新技术被发明之后,农民的生产能力以及农业资源的使用效率都有一个质的提高,并且这种农业新技术会进一步在各个部门传播并且受到价格因素的影响;之后比较著名的理论是资源替代和诱导技术变革理论,是由日本的熊熊次郎和美国的拉坦共同发明的,主要表明农业技术的变更导致农业发展以不同的方式进一步发展。最后是钱纳里发明了农业结构变化增长理论,证明了农业结构的调整和转变会影响农业发展,使得农业对劳动力的依赖减小,并且使农产品生产效率提高,农业资源、农业新发明的利用率进一步提高7。国内也紧跟国际形势积极进行着农业发展的研究,主要都是
18、用数据进行的定量研究。首先寻找能反应农业问题的指标体系出发,我国农业科学研究院岳文涛等人积极分析和吸取国内外学者的研究成果,对农业发展水平有了深层次的了解,然后依据了中国以及世界的农业统计资料,选出了13个农业指标,用他们组成指标体系。然后以此体系为基础,对1986年间中国以及世界的农业发展状况进行了统计分析,得到了我国农业发展状况在世界的水平的结论。然后广东农业发展科学研究院中的“农业指标体系”课题研究小组发表了名为农业水平指标体系的探讨的文章,他们认为有19个指标对于农业发展有代表性,这19个指标分为三层,从不同层次评析农业发展状况。相比较于岳文涛等人的指标体系,这个指标体系将中国的农业现
19、代化发展进程划分为两个阶段,即初步发展现代化和基本实现现代化阶段,两个阶段有两套不同的指标体系,这也展现了中国农业发展由原始向现代化转变的进程 8。随后南开大学赵美玲从农业的本质和特征进行了分析,遵守中国农业的发展特征和一般规律,并且从中国实际情况出发,提出了更有针对性的中国农业评价体系指标。她把指标体系分为3个层级。其中一级指标包括,支持保障水平,要素投入水平,可持续发展水平和生产水平。二级指标有10个,三级指标有30个9。在我国,农业发展状况评价分析研究已经得到了政府和学术界的重视,为了适应国际上发展战略观的转变和基于对我国30多年农业发展实践的经验和教训的重新反思,涌现了大量研究成果。主
20、要有一下方法:(1) 因素分析法这种方法把所有指标分为变数和不变数。其中几个指标之间相互有相关性的指标是变数,没有和其他指标相互影响的是不变数。然后把每一个指标做一个替换,其他指标不变,根据对结果的影响程度来判断指标对结果的影响程度。通过对每一个指标的替换,就能从所有指标中找出主要影响的指标和次要影响的指标,确定了指标的影响程度,就可以有的放矢的对农业结构进行调整。 (2) 结构分析法这种方法也可以叫做比重分析法,顾名思义,他是依靠分析每一个指标在结果中占的比重,剖析结果构成的变化,依次来确定主要影响因素和次要影响因素。用结构分析法分析问题时,了解事物发展的本质和内涵,可以对进一步解读事物的发
21、展趋势有很大的帮助。(3)动态分析法这种方法是把所有指标分门别类,然后在每一段时间内对各个指标的数值进行比较,所以能从指标的变化分析出其变化的趋势和速度。例如,把某一年的其中一个指标假定为100,然后把以后每年的数值以这一年为基准进行换算成具体数值,此时就可以很容易看出这项指标在几年内的变化情况。 1.2.2 研究方法评述通过之前对国内外研究现状的陈述,可总结出,在农业发展状况统计分析这个问题的研究上存在很多种方法,各种方法都有其优势。总体发展趋势是由单一指标向多一指标,定性分析向定量分析,过度关注农业发展速度和产量的单一影响因素的角度向着经济,环境,可持续水平等多元转变。在分析评价方法上,指
22、标体系涉及的指标众多,能够全方面的刻画区域农业发展的特征。但是,每一项指标对农业发展的情况能反应的方面是不一样的,对结果的影响程度也不一样,由于指标太多,就很难明显看出其中某一项指标的影响程度大小,这对评价农业发展状况是不利的。国外学者比较关心社会因素,如健康、绿色、可持续性等指标,并且对环境也比较注重,比如绿化、水土、空气质量等。国内在对农业发展评价上,虽然摆脱了把粮食总产量和速度作为农业发展评价的唯一标准,引入了结构、社会、环境等因素,但总体来说,农业经济指标还是评价农业发展水平的核心。指标众多,怎么才能从这些指标中找出最为关键的指标呢。国内外有两种常用的方法:一种是凭主观上的经验,对指标
23、进行加权,如AHP法等10;另一种可以使用SAS等数学工具,计算指标之间的相关性,如聚类分析法、因子分析法、主成分分析法等。这些分析工具在经济效益评价上是最常用到的。本文应用 DEA 方法探讨从多个角度分析秦皇岛农业发展状况,并对秦皇岛农业发展所出现的问题进行了分析并给出相应的建议。1.3 本文的主要内容和创新点本文通过对传统的农业发展状况分析的指标体系进行优化,确立了新的分析指标体系。并从经济绩效的角度,将所有的指标进行了分类,分为输入指标和输出指标。然后,通过多元统计知识中的主成分分析分别对输入和输出指标进行了降维。最后,运用数据包络分析的方法对输入和输出指标进行了计算,最终从农业发展效率
24、角度,对秦皇岛农业发展状况进行综合评价分析并对秦皇岛农业发展给出了若干建议。本文的主要创新点在于:(1)对传统评价指标体系进行了完善,在保留原有经济发展速度和产量的基础上增加了环境和可持续性等投入因素,并对应的增加了输出指标。(2)农业效益的评价分析可以从很多角度来进行,本文是从经济绩效的角度来进行的分析的 第2章 基础知识2.1 农业发展基础知识综述 2.1.1 农业发展效益的相关概念只要是经济活动,都应该能够用经济效益来测评,这也是最基本最可靠的指标。农业的经济效益,是农业生产效率的一种体现,是农业总产值与农业总成本的倍数关系。用公式表示:农业经济效益=农业总产值/农业总成本。经济效率是经
25、济学理论研究的一个重心。农业经济效益是经济效率中的一个分支。农业发展包括的内涵广泛,经济因素、社会因素、环境因素都是其子系统,可以视为区域农业经济系统是一个大的投入产出整体,农业发展的投入包括经济投入、社会发展的投入、生态环境保护的投入等等,相应的产出则囊括了经济增长、经济结构优化、社会发展、生态环境改善等方面11。区域农业发展问题实质是将投入资源进行合理有效配置的过程。于是区域农业发展绩效概念可以定义如下:区域农业发展过程中,农业发展产出相对于农业发展的投入的有效程度,反映投入资源利用有效性的程度。农业发展有效是指在保持资源投入不变的情况下,已经获得了最大的产出12。而本文是从经济绩效的角度
26、对农业发展效益进行的量化分析,并以秦皇岛为例进行了实际的分析,从而完成对秦皇岛农业发展状况的综合评价分析。2.1.2 农业发展状况的影响因素农业发展状况主要受以下几方面的因素的影响:(1)农业生产力水平。农业的生产力水平,决定着整个农业的产出能力。如果在相同的其他要素的投入水平下,生产力水平越高,更能产生更多的产出,说明农业发展状况好。反正若其他经济条件不变,相同的投入却获得更少的产出,则农业发展效益必然不佳。如今随着科技的发展,管理水平的提高,农业生产的专业化、机械化程度在很大程度上影响了农业生产力水平。(2)要素投入水平。从生产的角度讲,要素的投入水平越高,则产出的越多。但要素的投入水平并
27、不是和产出成正比的,要素投入水平符合边际递减规律,边际递减规律是指其他条件时,连续地增加生产要素的投入,所新增的产出或收益反而会逐渐减少。也就是说,生产要素应该投入的量有一个水准,如果超过了这个水准,继续增加要素的投入不仅不会带来总体产量的增加,反应会使总体产量下降。所以,要素的投入不是越多越好,和生产力相适应才是正确的。(3) 支持保障水平。政府对农业发展的支持和保障水平对农业发展状况起着一定的影响作用。近年来,政府从种粮免税到种粮补贴,农机补贴等一系列举措使更多的农民参与到来农业生产,促进着农业发展。(4) 可持续发展水平。这个因素要求我们合理使用资源,使用资源要从长远角度考虑,保证资源的
28、长期利用。所以我们应该从社会、资源、经济、和环境保护等方面全面考虑问题。这是一套系统理论,保证我们既要着眼于现在的发展,又不能提前透支后代人的资源,兼顾环境的保护。这个观念是一种立足现在和未来的思想。如今人们越发感觉到资源的过度利用和环境的破坏带来的灾难,环保和合理利用资源的理念已经植根于人们的脑海。可持续发展水平的高低,很大程度上影响了农业未来发展趋势 13。四个因素之间均相互独立,从不同的侧面和角度影响和制约着农业发展状况的水平。2.2 相关统计学基础知识综述2.2.1 主成分分析基本知识(1)主成分分析的基本思想前面说到了如何从众多指标中找出最关键的几个,主成分分析法就是一种非常常用和实
29、用的方法。通过主成分分析法,可以从众多指标中提取出其中的“精华”,这些“精华”的几个指标能解释所有指标之间大部分的方差,也就代表这些“精华”包含了所有指标中大部分的信息,并且提取出的“精华”之间是没有相关性的,从而做到了对指标的简化。所以这种对众多指标进行降维,提取出几个能代表整体信息的、互相之间不相关的指标的方法叫做主成分分析方法。一般来说,处理降维这种问题的做法是用所有的变量做一个线性组合,把这几个线性组合作为一个新的变量,用新的数量较少的几个变量去解释所有方差,这样,也能达到同样的效果。但是这种方法存在一个问题,就是一组变量可以组成很多种新的变量组合。如果没有其他限制条件,这种组合就会有
30、很多,该如何从中选择呢?现在假设所有指标组成的第一个新变量记为,我们尽可能的让他能代表原变量更多的信息,这里所说的变量的“信息”也就是变量之间的方差,所以越大越是有利,说明能代表更多的原变量的信息。也这是这个原因,所以在第一个线性组合的选取时,应该从多个线性组合中挑选能代表最多信息的为,把叫做第一主成分。此时,这一个主成分可能不能代表原来个变量的方差,就需要再选取第二个线性组合,记为,使新的变量能更多的解释更多的原来的方差。我们的目的是对原众多变量进行降维,所以希望中不包含中能够解释的方差,避免发生冗余。也就是要求尽可能的小,此时把叫做第二主成分,同样用这种方法,就可以提取出第三、四第个主成分
31、。(2)主成分分析的数学模型假设有一个个变量的样本资料。观测这些样本的所有变量,个样品的数据资料阵为: (2-1)其中:主成分分析的做法就是将这个变量,提取出其中的“精华”,变成一个新的数量少,而且互不相关的新的变量,即 (2-2)简写为: (2-3)模型应该满足这些条件:互不相关(,),的方差依次减小所以,这里把叫第一主成分,叫做第二主成分,按照这个顺序,会出现第个主成分。我们把系数叫做主成分系数。这个模型用矩阵表示如下:,其中称为主成分系数矩阵。主成分这一概念产生于19世纪初,是由Karl parson引用,开始时未了解决非随机变量的问题。然而在1933年的时候Hotelling将这一方法
32、或者说概念应用于随机变量,从此以后主成分的应用越来越广泛,对处理数据,分析问题起着越来越重要的作用,尤其在最近20年间,计算机数学软件的大量使用,使得主成分分析操作变得简单,应用也越来越多。主成分分析可以应用于许多领域,其中一个领域就是系统评估。系统评估是检查一个理论系统是否处于正常的运营状态很重要的一个环节,然后系统评估需要很多的指标,有些指标组成的变量数目巨大,难以处理。假如对一家企业的经济效益进行系统评估,很多指标都在影响着企业的经济效益,所以指标变量也就很多,这些指标选取的标准就很难制定。所以解决系统评估问题的重点在于找到一种方法,能够将大量的指标变量浓缩成很少或者说几个变量,这样,才
33、能使系统评估有进行下去的先决条件在经济研究领域,主成分依然有着很广泛的应用,除了农业发展经济效益的研究外,区域经济发展水平的统计分析,区域发展竞争力的评估,人们的生活条件,生活质量的测评,等等很多问题都可以应用主成分分析进行研究。另外,主成分分析除了用于系统评估研究领域外,还在很多领域有极其重要的应用。本文主要是利用主成分分析的方法对影响农业发展的两组指标进行一个浓缩,把多个变量变成少数变量。使新变量能体现原始数据包含的信息,从而简化计算,使问题清晰明朗。这样,将这些处理数据后得到的主成分就可以作为数据包络分析得决策和投入单元,从而减少因决策单元过多导致的计算误差14。2.2.2 主成分几何解
34、释要在二维空间中阐述主成分分析的几何意义,需要假设有个样本,每个样本有二个指标变量。假设这个样本在二维坐标轴中的分布是一个椭圆的形状,如下图所示:图2-1 主成分几何解释图现在对坐标轴进行一个角度为的正交旋转,旋转的数学公式为写成矩阵形式为:其中为坐标旋转变换矩阵,它是正交矩阵,即有,即满足。这个椭圆在正交旋转变换之后,就有了下图所示的新坐标:图2-2 主成分几何解释图新坐标有如下性质:(1)个点的坐标和的相关几乎为零。(2)个点在坐标平面上的方差主要都集中在轴上,只有小部分的方差落在了轴上。和作为由原始的指标变量 和表示的新变量。并且这个点的方差是集中在轴上的,所以原二维坐标轴上的点用轴上的
35、一个新的一维的坐标来表示,这样就能保持原始点大部分的信息,所以把轴叫做第一主成分,轴与轴正交,他们之间的方差是最小的,所以把它叫做第二主成分。2.2.3 主成分的导出与计算步骤由上面建立的模型,我们可以了解主成分分析的内在含义和原理。要运用主成分分析,首先要有原始数据,并且满足主成分分析数学模型的三个基本要求。如何利用主成分分析去解决问题,关键在于得出主成分系数,进而表示出主成分模型。1、由前面分析的主成分模型可知,主成分之间应该没有相关性,这是主成分模型的第一个条件。对于主成分,其协差阵应为,2、将原始数据的协方差阵表示为,再对原始数据做标准化处理,此时协方差阵等于相关矩阵,即有:3、我们通
36、过分析主成分的数学模型中的条件以及分析正交矩阵的性质,可得到,在满足条件的前提下,最好是一个正交矩阵,即满足于是,将原始数据的协方差代入主成分的协差阵公式得到下面的计算结果:展开上式得我们可以得到以下结果,这样我们可以进行以后的分析找到了理论上的依据。对等号两边做一个展开的变换,变换之后矩阵仍然是相等的,我们可以从第一列中得出的方程:这是一个齐次方程,为了能够顺利得出解,他的系数矩阵的行列式必须是0,即此时,我们就求出了相关系数矩阵的特征值,他对应的特征向量为。用同样的方法对矩阵的第二列、第三列等进行展开、计算,就能得到的方程:的个根,特征方程的特征根是,他对应的其特征向量的分量为。4、下面再
37、证明主成分的方差是依次递减设相关系数阵的个特征根为,相应特征向量为。相对于的方差为:同样有:,即主成分的方差依次递减。并且协方差为: (2-4)由前面的证明可以知道,主成分分析中的协方差矩阵对角线上的元素正是原始数据相关矩阵的特征值,并且是一个对角矩阵,而与原始数据相关矩阵特征对应的特征向量组成了主成分系数矩阵的所有元素。矩阵是一个正交矩阵。可见,原变量在一系列的变换后成了一组新的变量新的随机变量彼此不相关,且方差依次递减。样本观测数据矩阵为:第一步:对原始数据进行标准化处理。其中 (2-5)第二步:计算样本相关系数矩阵。为了说明更简洁易懂,仍然用原来的来代表原始样本数据在经过标准化后的矩阵,
38、此时的原始数据在经过标准化变换之后其相关系数为: (2-6)第三步:求相关系数矩阵的特征值,相关矩阵由来表示,特征值用()来表示。在这里,我们可以用雅克比方法来进行计算。并能够求出其对应的特征向量,用来表示。第四步:从中依次选取第一主成分,第二主成分等等,这些主成分的表达式都可以得到。此时我们能够得到个主成分,再来观察他们的方差,每个主成分的方差是逐渐减小的。这是因为这个原因,所以在处理实际问题时,并不是所有得到的主成分都被拿来作为新的变量,一般做法是从中选取贡献率比较大的前个主成分,并且这个主成分的累积贡献率能达到一定标准。贡献率是某一个主成分的方差与全部方差的比值,同样也就是,某个主成分的
39、特征值与全部主成分特征值总值的比值。用公式表示为:贡献率=从贡献率的定义和公式可以看出,贡献率能代表某个主成分对原始数据所包含信息的解释能力。在所有的个主成分之中选取个主成分,选取的个数的标准就是累积贡献率的多少,一般来说,累积贡献率处于85%以上的水平,新的变量就能够解释原始数据足够说明情况的信息。在实际问题中,选取的所有主成分应该是有实际问题的意义的,我们对主成分的含义进行一个解释,才能证明主成分具有的实际意义。那么主成分的现实意义从何而来,如何对主成分做现实意义的解释。一般的做法是,通过主成分表达式的系数可以获得,并依此做一个大致的定性的分析。每一个主成分都是由原始变量以及加在前面的系数
40、组成,这个系数有的大,有的小,有的正,有的负,都代表着原始变量对新变量的影响作用,或大或小,正相关或负相关。系数决定了原始变量对新的变量的影响程度和影响方向。如果所有的系数大小相差不大,就说明所有的变量对新变量的影响程度相差不大,可见这是一个体现综合指标的新变量。然而每一个原始变量组合在一起形成的新的变量具体有什么现实意义,还要结合具体情境进行综合的分析,这样才能保证主成分分析结果的有效性和现实意义。第五步:计算主成分得分。对原始数据进行标准化之后,每一个样本一一对应代入到主成分表达式中,就能够能到每一个主成分的在样本数据下的具体值。所有主成分在每一个样本下的具体值全部算出来,就得到了所有样本
41、在新变量下的新数据,即为主成分得分。数学语言可表示如下。第六步:主成分的主成分得分,是新变量在每一个样本下的具体数值,并可以依靠这些数值对原变量进行统计分析。可以进行有主成份回归,变量子集合的选择,综合评价等数据分析处理过程15。2.3 数据包络分析基础知识综述2.3.1 数据包络分析简介本文对秦皇岛农业发展状况评价分析用到的分析工具是数据包络分析(Data Envelopment Analysis),简称DEA,其简介如下。数据包络分析是一种有效的效率评价方法,可以处理多投入和多产出的问题。可广泛使用于效率评价。DEA追求投入要素的利用效率最大化,把一个投入要素的效率与另外一组提供相同效用的
42、要素相比较,得出要素的使用效率。通过一系列计算,得到100%效率的投入要素是相对有效率单位,而另外的要素效率评分不足100%的要素是无效率单位。DEA方法有数学上的理论支持,与经济学中的 Pareto 有效性相同,经过多次的处理实际问题的应用,证明他们都在处理效率评价问题时有着优良性能,分析结果要比生产函数更可靠。DEA处理后的结果并不是一个效率评价的绝对数值,而是一个相对数值,也就是说,经过DEA的处理,只能得到是要素的相对有效性,在实际问题中,要素的相对有效要你实际有效更具有意义。在管理运筹学中经过理论和实际的研究,在一套生产系统中,任何生产效率不可能达到100%的最优使用。所以在实际生产
43、中,只能找到最适合自己的,最满意的生产效率。因而DEA成了效率评价问题方法中的有效方法,他可以给出合适生产环境发展方向、与现有生产水平相当的调整方向。现在DEA 方法应经被很多领域所接受和认可,成为判断、分析、决策生产效率和生产方向的一个重要辅助工具,实践证明这种方法也是可靠的,很多文献都对DEA的作用和优点进行了阐述,这里不再赘述。2.3.1 数据包络分析理论介绍模型DEA在处理多投入多产出的问题上发挥着不可替代的作用。在DEA方法中,会有很多的决策单位,每一个决策单元都有众多输入和输出指标。通过分析每一个决策单元的输入和输出指标,可以得到每一个决策单元是否达到最优,这种最优并不是绝对的最优
44、,而是相对于其他决策单元的最优。即结果反映的是一个决策单元相对于其他决策单元是有效的。DEA 方法拥有多个模型,其中模型应用最为广泛,其概述如下:这里有个部门或单位,也就是决策单元,用DMU来表示。决策单元中有输入指标和输出指标,分别用和表示,他们都有具体的数值,由下表给出。我们引入实际的问题来对这个理论进行说明,输入输出指标中,有,对第种输入的投入量,对第r种输出的产出量。表2-1 决策单元的投入产出数据12n为方便,记对应的输入、输出数据分别为,其中,评价的DEA模型()为(分式规划):这里面的,分别代表个输入变量和个输出变量的权系数。使用Charness和Cooper对于分式规划的C-C
45、变换,同时在非阿基米德域上引入非阿基米德无穷小的概念,给出了摄动法,这样能将分式规划问题转变成与之等价的有非阿基米德无穷小量的DEA模型:其中:。为阿基米德无穷小量,是松弛变量,是剩余变量。在模型中,有效值指投入相对于产出的发挥其效用的程度,该决策单元的有效值用表示:数值高,代表资源的配置比较合理,如果值比较低,说资源存在着浪费,有没有发挥其效用的部分。有效性判断的标准为:(1)当,表示值DEA无效,决策单元的输入和输出指标组成的生产系统中,能够把原投入的数量按照比例的减少,而同时原产出不变。(2)当,和都大于0,表示为弱DEA有效,即在决策单元的输入和输出指标组成的生产系统中,投入要素减少的
46、情况下还能保持产出不变,或者投入要素增加的情况下,产出增长的比例更高。(3)当,和均等于0,表示为DEA有效,即在决策单元的输入和输出指标组成的生产系统中,此时的资源使用水平达到最优,投入和产出都比较合理。DEA 方法是评价DMU要素使用相对有效性的有效办法,同时能通过分析结果得到改善效率没有达到最优的DMU的结构调整方向, DEA 方法还能够对DMU的规模收益状态进行有效评价。设,它的规模收益状态能够通过 k 值表示: (1)若 ,则的规模收益不变,也就是决策单元现在正是位于最大产出的规模点; (2)若,则处于规模收益是处于递增状态的,说明决策单元保持的投入量的同时,应当扩大投入量,这时候产
47、出量会比投入量增加的比例更高; (3)若 ,则规模收益是处于递减状态的,说明决策单元保持的投入量的同时,这时候扩大投入的量,产出的量也会增加,但速率比投入要素增加的慢。 以上就是对 C2R 模型的介绍,这只是DEA方法中的一个模型。在进行实际的DEA操作之前,必须要先建立起输入输出指标体系。结合本文,首先必须建立秦皇岛农业发展系统的输入输出指标,然后进行下一步分析。2.4 本章小结本章主要对本文在研究秦皇岛农业发展状况的综合评价分析时所用到的理论方法进行了阐述。其中包括农业发展经济效益的知识综述,多元统计分析中主成分方法的理论分析,以及数据包络分析法。其中,数据包络分析是本文主要的创新点,也是需要认真学习的知识。通过对理论的阐述,为下文