《多元统计分析案例教学范文.doc》由会员分享,可在线阅读,更多相关《多元统计分析案例教学范文.doc(28页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、正 文I-1浙江工商大学统计与数学学院本科毕业论文正文浙江省十一城市综合实力统计分析:基于2008年经济数据摘 要: 本文根据中国城市经济发展研究中心提出的城市综合经济实力和区域的概念,并利用经济学原理以及2008年各城市社会经济发展状况的截面数据,就浙江省11市的经济数据进行分析。首先建立了评价的指标体系,其次,分别采用加权平均法、主成分分析法、因子分析法和聚类分析法对浙江省根据行政区域划分的11个市的综合经济实力进行了全面的评价和比较,并在此基础上提出了促进浙江各市经济协调发展、共同进步的相关措施。关键词:城市经济 加权平均 主成分分析 因子分析 聚类分析Analysis of Compr
2、ehensive Economic Strength of Eleven Cities of Zhejiang Province: Based on Economic Data in 2008Abstract:This paper focuses on the economic data analysis of 11 cities of Zhejiang Province based on the concept of comprehensive economic strength, urban areas economic by City Economic Development Cente
3、r in China, principles of economics and the economic development sectional data of various cities in 2008. An index system of the evaluation is established at first; then using the methods of Weighted average, Principal Component Analysis, Factor Analysis and Cluster Analysis, the comprehensive econ
4、omic strength of the 11 cities divided by the regional administration in Zhejiang Province are evaluated and compared. And finally, some measure, which may potentially promote coordinated economic development and common progress are proposed. Keywords:Urban economy; Weighted average; Principal Compo
5、nent Analysis; Factor Analysis; Cluster Analysis正文目录一 引言I-4二 经济实力分析评价方法I-5(一)多元统计分析的涵义I-5(二)主成分分析法I-61 主成分分析法的原理及优点I-62 主成分分析法的算法步骤. . . . . . . . . . . I-7(1)原始数据的标准化. . . . . . . I-7(2)求指标数据的相关矩阵I-8(3)求相关矩阵的特征根向量,确定主成分 I-8(4)求方差贡献率,确定主成分个数 I-8(5)对个主成分进行综合评价I-83 因子分析模型的建立及分析I-94聚类分析I-10(1)聚类分析的概念I-
6、10(2)聚类分析的相关理论I-10(3)聚类分析的主要步骤I-11(4)数据的标准化I-11(5)相似性测度I-11三 浙江省各地区的经济实力分析I-12(一)加权算术平均法I-13(二)主成分分析法I-14(三)因子分析法I-16(四)聚类分析I-18四 模型分析和结果讨论I-22五 结束语I-24六 致谢I-25七 参考文献I-26一、引言以区域的概念来讨论经济发展是一种很有效的方法。区域是指根据一定的目的和原则而划定的地球表面的一定空间范围,是自然、经济和社会等方面的内聚力而历史奠定,并具有相对完整的结构,能够独立发挥功能的有机整体。而区域经济就是一种综合性的经济发展的地理概念。我国区
7、域经济学发展在过去的三十年间,经历了起步、发展和壮大三个阶段;在区域发展、区际关系、区域政策方面做了大量的研究工作。从区域划分来分析经济情况,已经取得很显著的成果。以对浙江省的研究为例,葛莹、姚士谋、冯学智、蒲英霞、卓勇良在浙江省区域块状经济和城市化的关系(2007)中,针对浙江省城市化进程是否与高速发展的区域块状经济适应的问题,用空间自相关的方法,从区域块状经济类型(城市化和本地化集聚经济)着手进行解答。结果表明,浙江省1998年和2001年批发零售贸易和餐饮业拥有城市化和本地化集聚经济,且后者比前者的程度更高。随着时间的推移,两者都有不同程度的减弱。其次,同期制造业仅有本地化集聚经济,且水
8、平随时间而增加。王发明在浙江省区域经济集聚与生态环境协调发展的对策研究(2008)一文里,试图从资源短缺、环境污染等这种令人担忧的生态环境中探求区域经济发展对生态环境的影响,针对浙江区域经济可持续发展中存在的主要问题进行原因剖析,提出了相应的治理对策及措施,以达到环境、经济与社会三者协调发展的目的。叶华、陈修颖在近16年来浙江省区域经济发展差异分析(2008)中,以浙江省11个地级市为基本单元,根据1993年浙江省计经委国土办课题组的研究报告,将全省分为浙东北、温台和金衢丽三大区域,并且从GDP、人均GDP、产业结构、就业结构、人民生活水平、城市化水平和对外贸易等方面入手,分析了近16年来浙江
9、省区域经济差异的演变特征和成因,并提出相应的对策建议。类似的从区域方面研究经济、浙江省经济的文献还很多。改革开放以来,浙江在发展社会主义市场经济的过程中走出了一条具有浙江特色、符合浙江实际的发展路子。全省经济发展迅速,主要经济指标在全国保持领先地位,并成为全国经济增长速度最快和最具活力的省份之一。20世纪90年代以来,浙江的经济得到了突飞猛进的发展。2003年,当时全国人均GDP为9057元,浙江省的人均GDP是20147元,是全国水平的2.24倍;2003年全国城市化水平是40.5%,浙江省为53%;2005年,浙江省以占全国1.06%的国土面积, 创造了占全国7.13% 的地区生产总值和7
10、.16%的外贸进出口总额。这些指标说明,浙江省在总体经济水平上要超过全国水平10年以上。截止到04年的数据显示,从人均GDP、城市化水平等指标可以看出浙江的发展水平大约比全国超前10年。同时浙江的发展势头仍然强劲,从多方面因素判断,今后十到二十年其经济增长率仍将高于全国平均水平。在区域经济发展中,城市处于核心和龙头的地位,提高城镇化水平、加快城市化进程是解决当前和未来一系列问题的关键。浙江经济发展显示出不平衡的态势,浙西南的GDP几乎只有浙东北的一半。很显然,浙江省各市的城市化水平也存在显著差异, 杭州、宁波、温州等的城市化水平始终走在全省的前列, 丽水和衢州则相对落后。随着长江三角洲经济一体
11、化进程的加快以及WTO过渡期结束后,浙江作为沿海省份需要进一步融入国际经济面临的机遇与挑战,清楚的看到发展差异并找出差异形成的原因,通过核心城市的优先发展带动区域经济和社会的快速发展,是现实提出的急需解决的问题。为此,本文在参阅相关文献的基础上,根据中国城市经济发展研究中心提出的城市综合经济实力以及区域的概念,根据区域的行政划分,从浙江省11个市出发,利用经济学原理以及2008年各城市社会经济发展状况的截面数据,首先建立了评价的指标体系,其次,分别采用加权平均法、主成分分析法、因子分析法和聚类分析法对浙江省11个市的综合经济实力进行了综合的评价和排位,并在此基础上提出了促进浙江各市经济协调发展
12、、共同进步的相关措施。面对区域差距带来的影响,浙江省应该继续加大固定资产投资的力度,在制定区域发展策略时应该加强区域间的交流和合作,促进各地区优势互补,共同发展。同时,也要积极鼓励引进外资和开拓国际市场,加快与国际经济的接轨和融合。另外,还要继续扩大中心城市的规模,在积极建设环杭州湾产业带的同时,不断加强温台和金衢丽产业带的建设,提高中心城市的综合竞争力,扩大其对周围地区的辐射和带动作用,最终逐步缩小区域差距,促进各地区和谐发展、共同繁荣。二、经济实力分析评价方法(一) 多元统计分析的涵义多元统计分析是运用数理统计的方法来研究多变量问题的理论和方法,它是一元统计学的推广。在实际问题中很多随机现
13、象涉及到的变量不是一个,而经常是多个变量,并且这些变量间又存在一定的联系。要有效地提取信息和用数据科学地进行推断,就会用到多元统计理论。多元统计分析的一个主要研究内容就是简化数据结构(降维问题),简化数据结构即是将某些较复杂的数据结构通过变量变换等方法使相互依赖的变量变成互不相关的,或把高维空间的数据投影到低维空问,使问题得到简化而损失的信息又不太多。主成分分析及因子分析就是这样一种方法。(二) 主成分分析法近年来,随着多元统计分析方法的普及与应用,主成分分析法成为构造综合评价指数的常用方法之一。因此,它在综合评价领域得到了广泛的应用。目前看来,综合评价方法的研究焦点,仍然是如何科学、客观地将
14、一个多目标问题综合成一个单一指数的形式,即进行降维处理。目前己产生了许多这样的降维方法,比如层次分析法,模糊综合评价法等。但这些方法的一个共同点是都需要专家评价或评分,所不同的只是组织调查的内容和过程的难易和繁简不一,以及对专家评估信息处理的技巧各异。这就不可避免地带有人为主观性,而主成分分析法则采用了一种完全不同的思路,避免了主观评分。在社会和经济领域中,常常碰到多指标的统计分析,比如学生成绩的评价、企业经济效益的分析、服装定型等等。指标个数较多,各指标之问往往又相互影响、相互牵连,关系相当复杂,给统计分析工作带来很大困难。因此,希望能用较少的几个新的综合指标,来代替原有的较多的指标,使问题
15、简化。主成分分析法是将多个指标化为少数综合性指标的一种多元统计分析方法。这些综合指标是原始指标的线性组合,且彼此之间互不相关,它可以在力保原始数据信息损失最小的情况下,对高维变量空间进行降维处理,是一种最新的综合评价方法。主成分分析是由英国生物统计学家Kart Pearson于1901年首次对非随机变量引入的,尔后,又由Hotelling将其推广至随机变量。这一方法在处理解决多指标的统计分析中得到广泛应用,是一种很常用的、行之有效的多元统计方法。1 主成分分析法的原理及优点 主成分分析法是通过恰当的数学变换,使新变量主成分成为原变量的线性组合,并选取少数几个在变差总信息量中比例较大的主成分来分
16、析事物的一种方法。主成分在变差信息量中的比例越大,它在综合评价中的作用就越大。以两个指标来衡量个样本的简单情况为例。个样本之间的变量信息用离差平方和表示,则综合评价时的总变差为: 如果与两个数值差不多,说明两个指标在变量总信息量重比重相当,综合评价时两个指标都要保留,如果二者比例为4:1的关系则说明第1个指标反映的信息量很大,占到80%,综合评价时仅用第1个就可以了, 第2个可以舍弃。数学上已证明,实施变换前后的总方差(与离差平方和一样说明变差信息量)是相等的,这说明原指标代表的变差信息已由主成分来表示。数学上还证明,相关矩阵的特征根即是主成分分析中第个主成分的方差,对应的特征向量即是第个主成
17、分中各指标变量的系数。在主成分分析中各主成分是按方差大小依次排列的,这说明第一主成分代表的变差信息量最多, 其余依次次之。由此在分析实际问题时,可只取前个主成分来代表原变量的变差信息,以减少工作量。用主成分分析法确定权数有以下优点:A、可消除评价指标之间的相关影响。因为主成分分析在对原指标变量进行变换后形成了彼此相互独立的主成分,而且实践证明指标间相关程度越低,主成分分析效果越好。B、可减少指标选择的工作量,对于其它评价方法,由于难以消除评价指标间的相关影响, 所以选择指标时要花费不少精力,而主成分分析由于可以消除这种相关影响,所以在指标选择上相对容易些。C、主成分分析中各主成分是按方差大小依
18、次排列顺序的,在分析问题时,可以舍弃一部分主成分,只取前后方差较大的几个主成分来代表原变量,从而减少了计算工作量。2 主成分分析法的算法步骤(1) 原始数据的标准化设有个样本,项指标,可得数据矩阵表示个样本,表示个指标,表示第个样本的第项指标值。用法对数据进行标准化变换:式中 (2) 求指标数据的相关矩阵 其中:为指标与指标的相关系数 即 有,(3) 求相关矩阵的特征根特征向量,确定主成分由特征方程式,可求得个特征根,将其按大小顺序排列为,它是主成分的方差,它的大小描述了各个主成分在描述被评价对象上所起作用的大小。由特征方程式,每一个特征根对应一个特征向量将标准化后的指标变量转换为主成分:称为
19、第一主成分,称为第二主成分称为第主成分。(4) 求方差贡献率,确定主成分个数一般主成分个数等于原始指标个数,如果原始指标个数比较多,进行综合评价时就比较麻烦。主成分分析法就是选取尽量少的个主成分 来进行综合评价,同时还要使损失的信息量尽可能少。值由方差贡献率决定。3 因子分析模型的建立及分析将原始数据进行标准化处理,即将统一变量减去其均值再除以标准差,以消除量纲的影响,记为;(1) 计算相关系数据矩阵;(2) 求相关系数矩阵的特征向量和特征值;(3) 确定公共因子的个数,设为个,按累计贡献率来确定;(4) 求解初始因子载荷矩阵或(5) 建立因子模型或者用下式表达:(6) 对初始因子载荷矩阵进行
20、正交旋转变换,得到比较理想的新的因子载荷矩阵;(7) 将因子变为变量的线性组合,其中回归系数可通过最小二乘解得到,进而得到因子得分。(8) 对各因子得分以其因子信息贡献率作为加重权数,计算各样本的综合得分。根据综合得分的高低,可以对样本进行综合评定。因子分析具有系统的综合评定的特点,把它用于城市经济数据的分析,就能较好地反映出城市的总体经济状况,使各城市的综合经济实力具有定量的可比性。4、聚类分析(1) 聚类分析的概念聚类分析(Cluster Analysis)是根据研究对象的特征对其进行分类的多元分析技术的总称。分类问题是各个学科领域都普遍存在的问题,如人口学中研究人口生育分类模式、人口死亡
21、分类模式;医学中对各种精神病特征的分析;市场营销学中进行市场分层、确定市场目标等等,这些都需要对研究对象进行分类。聚类分析是应用最广泛的技术,它把性质相近的个体归为一类,使得同一类中的个体具有高度的同质性,不同类之间的个体具有高度的异质性。聚类分析的大部分应用都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也能用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。(2) 聚类分析的相关理论聚类分析可以用来对案例进行分类(Q型聚类),也可以用来对变量进行分类(R型聚类),Q型聚类应用较多。聚类分析的过程是:首先对要进行聚类的个体定义一
22、种能反映各个体之间亲疏程度的量,即对样本之间可以定义各种距离,对变量之间可以定义各种相似系数。以这些量为聚类的依据,将一些相似程度较大的个体聚合为一类,把一些彼此之间相似程度较大的个体又聚合为另一类,逐次聚合,最终将关系密切的聚合到一个小的分类单位,关系疏远的聚合到大的分类单位,直到将所有的个体都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统。最后再把整个聚类的过程画成一张图表示出来(称之为聚类图或谱系图),它可以直观地表示出各个个体之间的亲疏关系。分类的方法很多,较常用的有系统聚类法(Hierarchical Cluster)、迭代聚类法(K-Means Cluster)、判
23、别分析(Discriminant)等。系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直致将所有的样品(或指标)合并为一类。系统聚类法中一个核心问题是计算类与类之间的距离,有多种不同的算法:组间平均联结法(Between-groups linkage)、组内平均联结(Within-groups linkage)、最短距离法(Nearest neighbor)、最长距离法(Furthest neighbor)、重
24、心法(Centroid clustering)、中间距离法(Median clustering)、离差平方和法(wards method)等。(3) 聚类分析的主要步骤首先,根据研究的目的选择合适的变量;第二步计算相似性测度;第三步选定聚类方法进行聚类;最后是对结果进行解释和验证。一、选择变量,这些变量应该具有以下特点:(1) 和聚类分析的目标密切相关;(2) 反映了要分类对象的特征;(3) 在不同研究对象上的值具有明显差异;(4) 变量之间不应该高度相关。按上述原则,综合考虑市的经济实力,选取地区生产总值,人均生产总值,财政收入占GDP的比重,第三产业产值比重,全社会固定资产投资总额,社会消
25、费品零售总额,出口总额等指标。(4) 数据的标准化对于11个市具有不同量级的数据,在进行聚类分析前,需要进行处理,使数据在更平等的条件下进行分析。目前进行数据处理的方法大致有3种,即标准化、极差标准化和正规化。我们选取正规化,其计算公式为:公式中为正规化后的值,为原值,为最大值,为最小值。进行正规化后,。所有参与聚类分析的指标数据见下表。(5) 相似性测度在聚类分析技术的发展过程中,形成了很多测度相似性的方法。每一种方法都从不同的角度测度了研究对象的相似性,主要分为相关测度、距离测度、关联测度三类,以距离测度的应用为最多。距离测度的出发点是把每个案例看作维空间(为变量个数) 中的一个点,在维空
26、间中定义点与点之间的距离,距离越近的点,相似程度越高,聚类时更可能归为一类。如果两个案例在所有的变量上的值都相同,这两个点在维空间中应该重合,两个点之间的距离为0。距离测度应该满足下列条件:1) 即距离具有对称性,从案例至案例的距离与案例至案例的距离相等。2) 即三角不等式,任意一边小于其他两边之和。3) 如果则,即案例和案例不等同。常见的距离测度有欧氏距离(Euclidean distance)、绝对值距离(Manhattan distance或city-block metric)、明科夫斯基距离(Minkowslimetrics)、马氏距离(Mahalanobis D2)等。以欧氏距离为例
27、,定义为:其中, 表示案例和案例之间的距离,表示第个案例在第个变量上的值。欧氏距离在聚类分析中应用最为广泛,上式也称为简单欧氏距离,另一种常用的形式是平方欧氏距离,即取上式的平方,记为。平方欧氏距离的优点是,因为不再计算平方根,所以大大提高了计算机的运算速度。三、浙江省各地区的经济实例分析城市综合经济实力是指城市所拥有的全部实力、潜力及其在国内外经济社会中的地位和影响力。从此定义可以看出,评价城市综合实力应使用城市经济总量,它应该包括国内生产总值、固定资产状况、社会消费水平、外贸出口水平、交通运输能力、通讯设施状况、地方财政实力、人才科技状况及社会医疗保障水平等统计指标。指标的选取上,考虑到了
28、指标的全面性、代表性、可得性、简捷性和整合性等特性。本文通过多种筛选,选取了以下10项指标来构建评价体系。:地区生产总值(亿元);:人均生产总值(元);:财政收入占GDP的比重(%);:第三产业产值比重(%);:全社会固定资产投资总额(亿元);:社会消费品零售总额(亿元);:出口总额(亿元);:货运总量(万吨)(铁路+公路+水运);:每万人中科技人员数(人/万人);:每万人医院卫生院床位数(个/万人)。本文以浙江省11个市作为样本,选用上述10个评价指标,则评价样本矩阵为(如表1)。下面所有结果都是根据SPSS17.0计算完成。(一)加权算术平均法对每个指标给定权,然后用加权的算术平均值来综合
29、。为突出各指标的相对变化幅度,我们采用了变异系数作为相应的权,因为变异系数的大小反映了不同样本资料之间的变异程度,这种方法是一种客观加权法其主要过程如下:(1)求原始指标的变异系数:,其中为第个指标的变异系数;为第个指标的样本标准差。(2)用变异系数确定的权数作算术平均,求得各样本得分,并进行排序 其中 表1 11个市的变量矩阵城市杭州4781.166041419.0546.291961.721558.38336.1422536137.2848.80宁波3964.055677120.4640.361728.241238.02463.2625714.25116.1836.49嘉兴1815.304
30、312913.8834.401006.69599.61141.0410669.68120.9435.93湖州1034.893682912.9534.66525.24382.1149.011660451.2534.04绍兴2222.954823612.3734.96915.75618.89174.9511480.7583.1331.92舟山490.254693613.6743.78339.43157.8332.861020534.9837.85温州2424.293049614.0243.76758.441082.95119.0418307.2641.5125.01金华1681.853281313
31、.0240.98586.93675.6689.6916131.4252.8128.34衢州580.05260769.8334.56361.17215.618.999839.6423.4626.68台州1965.273424412.6240.41759.58709.71117.641440079.9625.20丽水505.682205312.4640.45248.85202.9810.31362218.5724.31从表2中的结果可以知道,变量、对一个城市的经济判断影响最大,而和则影响最小。另外我们还可以通过排序来比较各个城市的发展优劣之处(见表8)。表2 加权算术平均法的各个指标变量1951.
32、431392.580.710.1539817.9112347.070.310.0614.033.060.220.0439.514.260.110.02835.64555.530.660.14676.52453.970.670.14149.27141.920.950.1914500.916278.650.430.0969.141.250.600.1232.237.430.230.15(二)主成分分析法将原始指标数据进行标准化(这里标准化以后的变量均值为0,方差为1)。由于原始数据有不同的含义,且量纲不同,这样经过标准化以后使数据集中每个变量的变化范围大体相同,这样再进行分析具有很强的客观性。标准
33、化以后的数据用,表示(如表3),然后对标准化后的数据进行主成分分析。首先计算相关系数矩阵(见表4)及其特征值、及方差贡献率和累计贡献率,经过计算得到表5。表3 原始数据标准化后的结果Z01Z02Z03Z04Z05Z06Z07Z08Z09Z102.0321.6681.6391.5902.0271.9421.3801.2791.6532.2301.4451.3732.1000.1991.6061.2362.2751.7851.1410.573-0.090.268-0.04-1.190.307-0.160.005-0.611.2560.497-0.65-0.24-0.35-1.13-0.55-0.6
34、4-0.640.334-0.430.2430.1940.681-0.54-1.060.144-0.120.244-0.480.340-0.04-1.040.576-0.111.001-0.89-1.14-0.75-0.68-0.820.7560.339-0.75-0.000.997-0.130.895-0.140.606-0.66-0.97-0.19-0.56-0.320.344-0.44-0.01-0.350.259-0.39-0.52-0.98-1.11-1.37-1.1-0.85-1.01-0.92-0.74-1.10-0.740.009-0.45-0.460.211-0.130.073
35、-0.15-0.010.263-0.94-1.03-1.43-0.510.22-1.05-1.04-0.91-1.73-1.22-1.06表4 相关系数矩阵Z01Z02Z03Z04Z05Z06Z07Z08Z09Z10相关Z011.000.740.850.430.970.970.920.830.830.59Z020.741.000.790.260.820.620.800.630.810.88Z030.850.791.000.520.880.810.910.790.720.68Z040.430.260.521.000.320.510.290.370.090.28Z050.970.820.880.3
36、21.000.900.940.790.900.70Z060.970.620.810.510.901.000.850.850.740.48Z070.920.800.910.290.940.851.000.810.820.58Z080.830.630.790.370.790.850.811.000.600.48Z090.830.810.720.090.900.740.820.601.000.69Z100.590.880.680.280.700.480.580.480.691.00从表5可以看出,前2个主成分的累计方差贡献率达到85.384%(85%),选择2个主成分已足够。况且经过主成分分析后,这
37、2个主成分是相互独立的,这对我们的分析带来很大的客观性。这2个主成分的表达式为; 表5 解释的总方差成份初始特征值提取平方和载入合计方差的%累计%合计方差的%累计%17.45474.54474.54474.45474.54474.54421.08410.84185.3841.08410.84185.38430.7227.71693.11040.3013.00896.10850.2112.11098.12760.0930.93299.14970.0700.69799.84680.0130.12799.97490.0020.01899.992100.0010.008100.00从上述表达式可看出第
38、2主成分在第4个指标上的系数相对较大,在第9个、第10个2个指标上的权重为负,其含义是有第三产业越大和只有较少的知识分子、较少的病床将获得较大的数值。这似乎不太合理,事实上,东南沿海地带不少城市确实存在这种情况。第2主成分排序,结果见表8。将主成分1作为横轴,将主成分2作为纵轴,每个城市就有了2个坐标,因而可以在平面上标出一个点。把这11个城市全部标出就可以得到主成分坐标图。主成分坐标图具有很强的直观意义,各城市的特点及相似性都非常清楚地展示出来(见图1)图1 旋转空间中的成份图(三) 因子分析法公共因子一般较原始变量的个数少,对原始变量起着重要的支撑作用,它们之间互不相关,用这些公共因子来描
39、述原始变量,能够尽量保持和合理解释原始变量之间的复杂关系,基本步骤如下:(1)求标准化矩阵的方差协方差矩阵,即原始矩阵的相关系数矩阵。(2)求出相关系数矩阵的特征值、贡献率及累积贡献率(见表6。表6 旋转矩阵解释的总方差成份初始特征值旋转平方和载入合计方差的%累计%合计方差的%累计%17.45474.54474.5445.94359.43159.43121.08410.84185.3842.59525.95385.38430.7227.71693.11040.3013.00896.10850.2112.11098.12760.0930.93299.14970.0700.69799.84680.
40、0130.12799.97490.0020.01899.992100.0010.008100.00(3)提取前2个主分量,求出原始因子载荷矩阵,由于各因子的典型代表量不很突出,不便于对因子解释。为此,对原始因子载荷矩阵进行方差极大正交旋转(见表7),使得因子载荷矩阵的平方按列向0和1两极转化,达到结构简化,排除噪声干扰的作用。表7 旋转成份矩阵成份12Zscore(var01)0.7950.554Zscore(var02)0.9070.159Zscore(var03)0.7550.562Zscore(var04)-0.0030.896Zscore(var05)0.9000.398Zscore(
41、var06)0.6670.674Zscore(var07)0.8490.419Zscore(var08)0.6450.582Zscore(var09)0.9380.099Zscore(var10)0.8030.088由表6看出第1个主因子在指标上有较大的载荷,所以这3项指标反映了对各县市的综合经济实力的影响较大,即为综合实力因子;第2个主因子在上有较大的载荷,即为第三产业水平因子。(4) 计算各综合因子得分并进行排序各主因子,再以各因子的信息贡献率作为权数计算各地区的综合得分,其计算公式为(最后结果见表8):其中表8 模型分析得分排序表名次加权算术平均法得分城市主成分分析法城市因子分析法城市1
42、7081.35杭州80088.41杭州8749.88杭州26958.44宁波78390.73宁波8525.41宁波34649.785绍兴55570.33绍兴6342.52绍兴44203.226嘉兴50538.14舟山5913.60舟山54185.60温州50124.54嘉兴5705.01嘉兴64093.61湖州48091.99湖州5334.34湖州74027.79舟山46285.64温州4981.872台州83963.85台州45488.89台州4906.31金华93948.36金华45188.22金华4863.06温州102691.52衢州32192.88衢州3623.59衢州111858.95丽水23239.73丽水2716.55丽水(四) 聚类分析首先对数据进行正规化,计算公式为:公式中为正规化后的值,为原值,为最大值,为最小值。进行正规化后,。所有参与聚类分析的指标数据见下表。表9 正规化后的变量城市杭州110.86791110.72020.856211宁波0.80960.90510.50150.86370.7713110.82230.49