《我国16个地区农民在某年支出情况的聚类分析(共13页).doc》由会员分享,可在线阅读,更多相关《我国16个地区农民在某年支出情况的聚类分析(共13页).doc(13页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上我国16个地区农民在某年支出情况的聚类分析中 文 摘 要聚类分析是多元统计分析中研究“物以类聚”的一种方法,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类的场合。聚类分析主要目的是研究事物的分类,而不同于判别分析。在判别分析中必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。若对一批样品划分的类型和分类的数目事先并不知道,这时对数据的分类就需借助聚类分析方法来解决。聚类分析把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在一个给定的类里的
2、这些对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。关于聚类分析的任何通则必定是含糊的、不明确的,因为在众多的各种不同领域里聚类方法已经发展了,类和对象间的相似性具有不同定义。各种聚类分析方法通过用于聚类分析的各种各样的领域反映出来。因此尽管聚类方法有很多种,但不管哪一种都不能说得到的分类是准确的。本文选取了我国16个地区农民在某年支出情况数据的6项数据分析相关指标。利用SAS软件建立模型,并对测算的数据进行分析得出结论。关键词:聚类分析;农民支出;主成分分析; 动态聚类;; 第一章 引 言1.1 问题提出聚类的实质是根据样本(变量)间的亲疏关系将样本(变量)分为类,相近的
3、归为一类,差别较大的归为另一类。所获得的分类应有一定的意义。聚类分析的关键有两个:亲疏关系的判别:相似性与距离(不相似性);分类数的确定:分多少类合适。 农民工资性收入稳定增长。调查显示,以外出务工收入为主的工资性收入稳定上升,并成为农民增收的主要来源。2009年至2011年,农民工资性收入每年呈两位数增长,增长率分别为38.45%和21.44%。2011年农民人均工资性收入达到7884.12元,工资性收入占农户家庭现金收入的比重为65.72%。农民收入增加的同时支出应该也有所变化。随着国家经济发展,农民收入增加,支出也有所增长,但是支出范围依旧狭小。支出有偿付性支出和消费性支出构成。偿付性支
4、出主要是农民偿还债务的开销,由于各种因素,这方面我们没做调查,我也知之甚少,就不妄加谈论了,我主要说说消费性支出。消费支出莫过于衣食住行再加上教育、医疗、卫生和一些精神消费。从总体来看,我们国家农村经济支出很是可观。看看支出总额,与十年前相比,不知增长了多少,说明农民手中有钱了,也敢花钱了。但是农民收入支出的主要去向是哪里?各个省市的农民收入支出有何不同?本文将对此问题加以研究。指标选取考虑的因素:(1)指标的选择要能尽量反映农民的收入支出状况;(2)数据尽量从统计年鉴等规范、权威的刊物中获取。下面各个指标和数据符合以上要求。1.2 相关理论一、 聚类分析的基本原理:聚类分析又称群分析,是根据
5、“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。其实质是寻找一些能客观反映研究对象之间亲疏关系的统计量,然后根据这种统计量把研究对象按距离相近或性质相似的原则分成若干类,以便对各组数据进行分类研究,找出组内数据的共性以及组间数据的差异。聚类分析起源于分类学,在古老的分类学中,人们主要依靠经验和专业知识来实现分类,很少利用数学工具进行定量的分类。随着人类科学技术的发展,对分类的要求越来越高,以致有时仅凭经验和专业知识难以确切地进行分类,于是人们逐渐地
6、把数学工具引用到了分类学中,形成了数值分类学,之后又将多元分析的技术引入到数值分类学形成了聚类分析。聚类分析被应用于很多方面,在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在因特网应用上,聚类分析被用来在网上进行文档归类来修复信息。聚类分析的内容十分丰富,按其分类对象的不同就分为Q-型聚类分析(
7、对样品分类),它是依据被观测的样品的各种特征,将特征相似的归为一类;R-型聚类分析(对指标或变量分类)是依据被观测的变量之间的相似性,将其特征相似的变量归并为一类。聚类分析按其分类方法又分为系统聚类法、动态聚类法等。系统聚类分析也称为分层聚类法Hierarchical Cluster,它是聚类分析中应用最广泛的一种方法。分层聚类的思想是:开始将样品或指标各视为一类,根据类与类之间的距离或相似程度将最相似的类加以合 并,再计算新类与其他类之间的相似程度,并选择最相似的类加以合并,这样每合并一次就减少一类,不断继续这一过程,直到所有样本或指标合并为一类为止。动态聚类法也称为快速聚类法或K均值聚类法
8、,快速聚类的方法是:首先按照一定的方法选取一批聚类中心,再将其他样本以聚类中心为标本凝聚起来,形成遵照一定原理的初始分类,然后按照最近距离原则,不断修改认为不合理分类直至合理为止。二、SAS软件介绍SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,至今,统计分析功能也仍是它的重要组成部分和核心功能。SAS现在的版本为9.0版,大小约为1G。经过多年的发展,SAS已被全世界120多个国家和地区的
9、近三万家机构所采用,直接用户则超过三百万人,遍及金融、医药卫生、生产、运输、通讯、政府和教育科研等领域。在英美等国,能熟练使用SAS进行统计分析是许多公司和科研机构选材的条件之一。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,并在9697年度被评选为建立数据库的首选产品。堪称统计软件界的巨无霸。在此仅举一例如下:在以苛刻严格著称于世的美国FDA新药审批程序中,新药试验结果的统计分析规定只能用SAS进行,其他软件的计算结果一律无效!哪怕只是简单的均数和标准差也不行!由此可见SAS的权威地位。 SAS系统是一个组合软件系统,它由多个功能模块组合而成,其基本部分是BASE SAS模
10、块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,进行用户语言的处理,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序非常方便地进行。SAS有一个智能型绘图系统,不仅能绘各种统计图,还能绘出地图。SAS提供多个统计过程,每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概
11、率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。 SAS软件的宗旨是为所有需要进行数据处理、数据分析的计算机或者非计算机工作人员提供一种易学易用、完整可靠的软件系统。SAS语言本身是一种非过程语言(第四代语言),类似于C语言,且综合了各种高级语言的功能和灵活的格式,将数据处理和统计分析融合于一体。SAS在统计分析领域和数据挖掘技术几乎处于垄断地位,成为国际上流行标准企业管理软件。 经过近30年的不断发展完善,SAS系统已由最初的统计分析软件发展成为大型集成应用软件系统,发展成具有完备的数据集成访问、数据仓库管理、决策业务分析,数据挖掘等功能。SAS和SPS
12、S、BMDP并称为国际上最富知名度的三大统计软件。在国际学术界有条不成文的规定:凡是用SAS和SPSS统计分析的结果,在国际学术交流中不必说明算法,由此可见其权威性和信誉度。学习SAS软件时,需要读者有基本的统计学知识,对所选用的统计方法有较清楚的了解,没有统计学基础知识要掌握SAS软件较为困难。SAS系统是一个由三十多个专用模块组成的大型集成式软件包。其功能包括客户机/服务器计算、数据访问、数据存储及管理、应用开发、图形处理、数据分析、报告编制、质量控制、项目管理、运筹学方法、计量经济学与预测等。实际使用时可以根据需要选择相应的模块。SAS主要有如下模块:SAS基本部分:称为SAS/BASE
13、。可以完成基本的数据管理工作和数据统计工作,是SAS系统的基础,所有其它SAS模块必须与之结合使用。SAS分析核心:这一部分是SAS系统的灵魂。它提供了严肃的、权威的数据分析与决策支持功能。包括SAS/STAT(高级统计),SAS/ETS(时间序列分析),SAS/IML(交互式矩阵语言),SAS/OR(运筹学),SAS/QC(质量控制),SAS/INSIGHT,SAS/LAB。SAS开发工具:面向对象的开发工具,可以定制信息处理应用系统。包括SAS/AF,SAS/EIS(经济信息系统),SAS/GRAPH(图形处理)等模块。SAS分布式处理及数据仓库设计:此部分为SAS的高级数据处理功能。包括
14、SAS/ACCESS,SAS/CONNECT,SAS/SHARE等模块。SAS的这些模块可单独使用、也可互相配合起来使用,其中最常用的3个模块分别是SAS/BASE(基础)、SAS/STAT(统计)和SAS/GRAPH(图形),SAS系统是一个模块化的集成软件系统,便于用户根据自己的需要进行选择。其基本部分是Base SAS软件,此外还有用于统计分析的SAS/STAT软件;用于高级绘图的SAS/GRAPH软件;用于矩阵运算的SAS/IML软件;用于运筹学和线性规划的SAS/OR软件;用于经济预测和时间序列分析的SAS/ETS软件等。1)操作简便 SAS的宗旨是为所有需要进行数据处理、数据分析的
15、非计算机专业人员提供一种易学易用、完整可靠的软件系统。用户把要解决的问题用SAS语言(近乎自然英语的非过程语言)表达出来,组成SAS程序,提交给SAS系统就可以解决所提出的问题。执行情况和输出结果都在屏幕上显示出来。2)SAS系统将数据管理与统计分析融为一体SAS程序的结构由两个基本步骤任意组合而成。DATA用于对数据的加工处理;PROC用于分析数据和编写报告。SAS系统克服了通常软件或偏重于数据管理功能或偏重于统计分析的弊病,把数据管理与统计分析有机地结合在一起。3)适用性强、应用面广SAS系统适用于任何经验的人员(初学者或有经验的用户);适用于任何类型的数据;适用于几乎是任何应用的需要;适
16、用于任何计算机环境;适用于今日与未来(扩展性能强)。第二章 我国16个地区农民在某年支出情况的聚类分析2.1 问题的引入表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。(1)试对调查资料中的16个地区的农民生活水平进行主成分分析,(2)并利用前两个主成分对16个地区的农民生活水平进行分类表1-1 16个地区的农民生活水平的调查数据 (单位:元)地区食品()衣着()燃料()住房()生活用品及其它()文化生活服务()北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.16
17、36.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.409.8918.173.25内蒙古128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153
18、.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.756.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.302.2 模型的建立和分析对上表数据,我们运用聚类分析法可有:SAS程序如下:proc fastclus data=d641 out=out653 maxc=4 list;var x1-x6;id group;run;SAS程序分析:maxc=4:规定最大分类个数为4类list:要求列出分类结
19、果。out=out653:指定生成名为out653的输出数据集,包含VAR中的变量,新变量cluster和新变量distance(观测与所属类中心的距离)。主要输出结果: 动态聚类的初始凝聚点(数据不标准化)动态聚类的分类结果(数据不标准化)第一类:北京、浙江第二类:上海第三类:河北、山西、黑龙江、山东、河南第四类:内蒙、辽宁、吉林、江苏、安徽、福建、江西动态聚类产生的各类均值和标准差(数据不标准化)以下SAS程序首先调用STANDARD过程对数据作标准化变化,然后用标准化变换后的数据进行动态聚类分析。程序:Proc standard data=d641 mean=0 std=1 out=st
20、a653;Var x1-x6;/*将数据集d641中的变量x1-x6标准化,输出到数据集sta653中*/Proc fastclus data=sta653 out=out654 maxc=4 list;Var x1-x6;id group;Run;主要输出结果:动态聚类的初始凝聚点(数据标准化)动态聚类的分类结果(数据标准化)第一类:北京 第二类:上海 第三类:河北、山西、内蒙、山东、河南第四类:天津、辽宁、吉林、黑龙江、江苏、浙江、安徽、福建、江西程序:proc tree data=B10_4 horizontal graphics n=5 out=C10_4; copy X1-X6; t
21、itle c;主要输出结果:从图中可见,分为两类的结果为:G1 = 上海,北京,G2 = 天津,江苏,福建,广东,山东,河北,辽宁,广西,浙江,内蒙,江西,黑龙江,安徽。 分为三类的结果为:G1 = 上海,北京,G2 = 天津,山东,江苏,浙江,吉林,黑龙江,安徽,江西,G3 = 河北,河南,山西,内蒙。第三章 总结及建议我们国家的农民支出金额是增加了不少,但是这就一定能说明农民的生活水平已经得到了大幅度的提高吗?我们国家的农民都富有了吗?从上文分析的结果看来却不是如此。造成农民支出金额急速增长我认为有以下两个原因。一、我们国家为了适应全球经济发展趋势,不得大幅度提高货物价格,这样就造成了人们
22、收入和支出大幅增加的虚像。二、农民收入渠道增加,收入增加,支出也就随之增加。 至于农村支出范围依旧狭隘,我认为主要是农民消费观念依然陈旧,对精神消费等认识不正确。 三、扩大农民支出的建议 1.千方百计增加农民收入,提高农民购买力。增加农民收入是提高消费的前提。扩大农村支出消费,首先要保持农民收入稳定增长,提高农村居民购买力,这是扩大农村消费支出的基础。从农村目前的情况来看,一是要巩固农村第一产业,发展农村第二、第三产业,拓宽农民增收渠道。二是要推进农村劳动力继续转移,提高劳动力输出的组织性, 2. 积极创造条件,营造良好消费环境。一是要以新农村建设为契机,加强对农村交通、通讯、农村电网等基环境
23、。让农民础设施建设的扶持力度,畅通商品信息渠道。二是要整顿市场秩序,净化农村消费放心消费。三是要将农村市场纳入整个市场监控的范围,从制度和实施层次解决农村市场的无序状况,坚决打击针对农村市场的制假贩假行为,杜绝部分商家向农村倾销过期、质次或以旧翻新的商品,维护农村市场的正常消费环境。四是要加强农村信用和金融服务体系建设,增加金融服务产品,扩大农村消费信贷规模。 3.完善社会保障体系,增强农民消费欲望。继续推进社会保险向农业和农村覆盖进程,加快构建覆盖城乡的新型社会救助体系,探索建立农村最低生活保障,完善农村五保供养、特困户生活救治等救助制度。完善乡村社会保障服务机构,推进城乡社会保障公共服务网
24、络建设的一体化。加快发展农村基础教育事业。严格实行九年义务教育“一费制”,杜绝教育乱收费,同时财政要加大农村基础教育投资,加大对农村贫困学生的资助,加大课本费实行全免政策,解决学生因贫辍学的问题。在办好公办教育的同时,推行一系列优惠政策鼓励和支持民办教育。 4.大力推动家电下乡,促进农村消费升级。“家电下乡”政策是促进社会主义新农村建设、提高农民生活质量、扩大农村消费、统筹国内外市场的一项重要举措,是一项惠及农民,让老百姓得到实惠的惠农政策。 参考文献1 何文章 桂占吉 贾敬 哈尔滨.哈尔滨工程大学出版社.19992 杨虎.应用数理统计M清华大学出版社 2006.123 董全瑞.韩凤朝.影响农民收入的相关因素分析J.经济学家.2006(03):P35- P404 杜强,贾丽艳 著,SAS统计分析标准教程M,人民邮电出版社,2011专心-专注-专业