《概率论与数理统计在数学建模中的应用.doc》由会员分享,可在线阅读,更多相关《概率论与数理统计在数学建模中的应用.doc(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、概率论与数理统计在数学建模中的应用 国 冰。第一节 概率模型一、初等概率模型初等概率模型主要介绍了可靠性模型、传染病流行估计、常染色体遗传模型等三类问题:1、复合系统工作的可靠性问题的数学模型设某种机器的工作系统由个部件组成,各部件之间是串联的,即只要有一个部件失灵,整个系统就不能正常工作为了提高系统的可靠性,在每个部件上都装有主要元件的备用件及自动投入装置(即当所使用元件损坏时,备用元件可自动替代之而开始工作)明显地,备用件越多,整个系统正常工作的可靠性就越大. 但是,备用件过多势必导至整个系统的成本、重量和体积相应增大,工作精度也会降低. 因此,配置的最优化问题便被提出来了:在某些限制性条
2、件之下,如何确定各部件的备用件数量,使整个系统的工作可靠性最大?这是一个整体系统的可靠性问题.我们假设第个部件上装有个备用件,此时该部件正常工作的概率为,那么整个系统正常工作的可靠度便可用 (9.1)来表示.又设第个部件上的每个备用件的费用为,重量为,并要求总费用不超过,总重量不超过,则问题的数学模型便写成为 (9.2)问题的目标函数为非线性的,决策变量取整数,属于非线性整数规划问题。2、传染病流行估计的数学模型问题分析和模型假设本世纪初,瘟疫还经常在世界的某些地方流行。被传染的人数与哪些因素有关?如何预报传染病高潮的到来?为什么同一地区一种传染病每次流行时,被传染的人数大致不变?科学家们建立
3、了数学模型来描述传染病的蔓延过程,以便对这些问题做出回答。这里不是从医学角度探讨每一种瘟疫的传染机理,而是利用概率论的知识讨论传染病的蔓延过程。假定人群中有病人或更确切地说是带菌者,也有健康人,即可能感染者,任何两人之间的接触是随机的,当健康人与病人接触时健康人是否被感染也是随机的. 问题在于一旦掌握了随机规律,那么如何去估计平均每天有多少健康人被感染,这种估计的准确性有多大?给出以下假设(1)设人群只分病人和健康人两类,病人数和健康人数分别记为和,总数不变,即 (9.3)(2)人群中任何二人的接触是相互独立的,具有相同概率,每人每天平均与人接触;(3) 当健康人与一病人接触时,健康人被感染的
4、概率为。模型建立求解由假设(2)知道一个健康人每天接触的人数服从,且平均值是,则于是 (9.4)又设一健康人被一名指定病人接触并感染的概率为,则由假设3及(9 .4)式得 (9.5)那么一健康人每天被感染的概率为 (9.6)由于健康人被感染的人数服从,其平均值为 (9.7)标准差为 (9.8)注意,通常,取(9.6)式右端展开式的前两项,有 (9.9)最后得到 (9.10) (9.11)(9.10)式给出了健康人每天平均被感染的人数与、的关系,(9.11)式为变异系数,可看作对平均值的相对误差的度量。二、随机性决策模型所谓行为决策理论,就是用行为科学的观点和方法,对决策活动进行描述,解释和预测
5、的一种理论。它以人的决策行为作为基本要素,以自然科学的实证方法作为主要手段,归纳出一套建立在经验证据基础上的理论观点,拓展了决策论的研究范围。合理的决策必须具备三个条件:(1)目标合理;(2)决策结果满足预定目标的要求;(3)决策本身符合效率、满意、有限合理、经济性的原则。所谓风险型决策是指在作出决策时,往往有某些随机性的因素影响,而决策者对于这些因素的了解不足,但是对各种因素发生的概率已知或者可估算出来,因此这种决策存在一定的风险. 风险决策模型的基本要素决策者进行决策的个人、委员会或某个组织.在问题比较重大和严肃时,通常应以后者形式出现.方案或策略参谋人员为决策者提供的各种可行计划和谋略.
6、 如渔民要决定出海打鱼与否便是两个方案或称两个策略.准则衡量所选方案正确性的标准.作为风险型决策,采用的比较多的准则是期望效益值准则,也即根据每个方案的数学期望值作出判断.对收益讲,期望效益值越大的方案越好;反之对于损失来讲,期望效益值越小的方案越好.事件或状态不为决策者可控制的客观存在的且将发生的自然状态称为状态(事件),如下小雨,下大雨和下暴雨即为三个事件或称三种状态,均为人所不可控因素.结果某事件(状态)发生带来的收益或损失值. 风险决策方法 利用树形图法表示决策过程具有直观简便的特点,将其称为决策树的方法. 充分利用灵敏度分析(即优化后分析)方法对决策结果作进一步的推广和分析.决策树一
7、般都是自上而下的来生成的。选择分割的方法有好几种,但是目的都是一致的:对目标类尝试进行最佳的分割。从根到叶子节点都有一条路径,这条路径就是一条“规则”。决策树可以是二叉的,也可以是多叉的。对每个节点的衡量:1) 通过该节点的记录数2) 如果是叶子节点的话,分类的路径3) 对叶子节点正确分类的比例。有些规则的效果可以比其他的一些规则要好。决策树对于常规统计方法的优点。构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于
8、构造最小的树是NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。下面我们利用一个例题来说明如何来建立风险决策模型。例1、天龙服装厂设计了一款新式女装准备推向全国。如果直接大批量生产与销售,主观估计成功与失败的概率各为0.5,其分别的获利为1200万元与-500万元,如取消生产销售计划,则损失设计与准备费用40万元。为稳妥起见,可先小批量生产试销,试销的投入需45万元。据历史资料与专家估计,试销成功与失败的概率分别为0.6与0.4,又据过去情况,大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%。试根据以上数据,通过建立决策树模型按期望值准则
9、确定最优决策。解答:本题显然是要考核风险性决策模型的建立能力。按照这类模型的建立思路,我们有:问题分析与模型假设 1. 问题涉及直接大批量生产与销售、取消生产销售计划和小批量试销售这样三个决策方案的取舍,在每种方案下又分为成功或失败两种结果;2. 决策目标在表面上看是获利大小,实际上是要决定试销与否;3. 尚需注意后面几句话:“大批生产销售为成功的例子中,试销成功的占84%,大批生产销售失败的事例中,试销成功的占36%”,这意味着要计算两个概率,其一是当试销成功时,大批量销售成功与失败的概率;其二是试销失败情况下,大批量销售成功与失败的概率,这意味着要利用贝叶斯概率公式;4. 设定以下变量 -
10、试销成功,则-试销失败; -大量销售成功,则-大量销售失败。 模型建立求解1.先来计算两个概率,注意到代入贝叶斯概率公式 从而即当试销成功时,大批量销售成功与失败的概率分别为0.78和0.22.同理可以算出在试销失败情况下,大批量销售成功与失败的概率分别为0.22和0.78.2. 以试销与否作为决策思路,先画一方块“囗”称为决策结点,由决策结点向右引出若干条直线表示不同的策略(方案)称为策略分枝,策略分枝的右端画一个圆圈“”称为状态结点,由它引出表示不同状态及其发生的概率的分枝称为概率分枝,最后在概率分枝的终点画“”符号表示这一分枝的最终结果的效益值(期望值),正值表收益,负值表示损失本例对应
11、的决策树如图(见图-2):试销-45万成功0.6失败0.4不试销大量销售大量销售大量销售取消销售取消销售取消销售成功0.78成功0.22成功0.5失败0.78失败0.22失败0.51200万-500万 -40万1200万-500万 -40万1200万-500万 -40万图-2这棵树即为所求的数学模型。我们继续将模型求解出来。根据期望利润值最大准则对决策树进行计算,值得指出的是,画决策树是从左向右画出,画的过程中将各种已知数据标于相应的位置上. 但在决策树上进行决策计算却是从右向左进行的:先计算最右端每个状态结点的期望值。一级决策问题,只需利用结果点效益值计算各状态结点的期望效益值即可. 当有两
12、级以上决策时则需从右向左逐级计算.结果如图-3试销-45万成功0.6失败0.4不试销大量销售大量销售大量销售取消销售取消销售取消销售成功0.78成功0.22成功0.5失败0.78失败0.22失败0.51200万-500万 -40万1200万-500万 -40万1200万-500万 -40万图-3350350-40-126479.6434.6826826决策树的优缺点:优点:1)可以生成可以理解的规则。2)计算量相对来说不是很大。3)可以处理连续和种类字段。4)决策树可以清晰的显示哪些字段比较重要缺点:1)对连续性的字段比较难预测。2)对有时间顺序的数据,需要很多预处理的工作。3)当类别太多时,
13、错误可能就会增加的比较快。4)一般的算法分类的时候,只是根据一个字段来分类三、随机性存储模型问题分析与模型假设工厂为了稳定的生产,需要贮存一定的原料或零部件;商店为了满足顾客的需要,要有足够的库存商品;银行为了进行正常的营业,需要一定的货币进行周转;医院为了手术的急需,血库必备充足血液. 总之库存问题是普遍存在的. 早在1915年, 哈里斯(Harris)对商业中的库存问题建立了一个简单模型,并求得了最优解, 但未被人们注意. 1918年威尔逊(Wilson)重新得出了哈里斯的公式, 并将其发展. 他们的模型都是确定性的, 二次大战后, 带有随机性因素的库存模型得到研究。 目前, 库存问题的兴
14、趣已转到了多物品、多个库存点的理论。在随机性需求的情况下,要制订最优的存储策略必须知道一个时间段(如一天、一周、一个月等)内需求量的概率分布,以及订货费、存储费、缺货费(在随机需求的情况下,缺货几乎是不可避免的)。这里有两个可以考虑的问题,第一个问题是:决策者在每个时间段初,应该根据已有的存储量确定应订购多少货物使存储量达到最大,记这个最大的存储量为。第二个问题是:已有的存储量不低于什么数值时,本时间段就可以不再订购,记这个决定不再订购的那个存储量的最低值为。整个这种随机存储策略称为存储策略。给出以下假设:(1) 只考虑一种物品, 其需求是随机的, 需求量是非负连续的随机变量,密度函数为, 分
15、布函数为;(2) 只考虑一个库存周期,即在库存周期开始时, 做一次决策, 决定进货量;(3) 瞬时供货;(4) 决策前原有库存量为, 进货量为, 决策后的库存量为;(5) 费用包括订货费、存贮费和缺货费. 每次的订购手续费为, 货物单价为; 存贮费在周期末结算, 它与期末的库存量成正比, 比例系数为(单位存贮费), 缺货费与缺货量成正比, 比例系数为(单位缺货损失);(6) 决策的准则是期望总费用最小.模型的建立与求解库存问题有补充库存需求三个环节. 在这一系统中, 若一次进货量多, 进货的次数就少, 进货的费用就少, 但库存量大, 库存费用就大, 造成需求缺货就可能少, 缺货损失就会少; 若
16、一次进货量少, 进货的次数就多, 进货费用就大, 但库存量小, 库存费用就小, 造成需求缺货就可能多, 缺货损失就会大. 如何协调这些矛盾, 使该系统在某种准则下运行最佳. 即如何确定进货量, 使其总费用最小.进货费用为存贮费用为期望存贮费用为缺货损失为期望缺货损失为记 则总费用为 (2)目的是求当需要进货时有令 (3)若是使函数达到极小值的点, 则 (4)设为库存量进货点, 即当初始库存时, 进货至; 当不进货。当时, 不进货. 总费用为, 它应小于(此时进货量为)的总费用, 即当时,进货。则, 于是s应满足, 即 (5)若模型假设(1)改为需求量是非负离散随机变量, 分布为 (1) 式可变
17、为 (1)(4)式可变为 (2)(5)式变为 (3) 是满足上式的最小正整数.实例例1 设某公司用某种原料进行生产, 已知该原料每吨单价800元, 订货费60元, 存贮费每吨40元, 缺货损失每吨1015元, 原有存贮量为10吨. 已知对原料需求的概率求该公司订购原料的最佳方案.解 由模型假设有:计算 因为所以S=40, Q=SI=4010=30又因为80030+1015(4030)0.2+(5030)0.4+(6030)0.2=40240所以. 故存贮策略为每个阶段开始时检查存贮量, 当吨时不必补充存贮; 当吨时补充存贮量到40吨.例2 某市石油公司希望确定一种油的存贮策略, 以确定应贮存的
18、油量. 该油的市场需求服从指数分布, 其密度函数为该种油每近2元, 不需进货费. 由于油库归该公司管辖, 油池灌满与没灌满时的管理费用实际上没有多少差别, 故可以认为存贮费用为零. 如缺货就从邻市调用, 缺货费为3元/斤.解 由模型假设计算 由 , 有, 两端取对数解出因 K+p由观察可知, 它有唯一解。 所以当库存下降到405000斤以下就应进货, 使库存达到405000斤. 出现, 是因为进货费为零, 可以频繁进货, 又存贮费为零, 存贮量多一些也不会增加费用。第二节 数据分析模型一、主成分分析模型和因子分析模型例1 现希望对30 个省市自治区经济发展基本情况的八项指标进行分析。具体采用的
19、指标有:GDP 、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值,数据文件见附表。这是一个综合分析问题,八项指标较多,可以用主成分分析法进行综合。打开文件后在SPSS 中的操作如下:使用SPSS软件中的AnalyzeData ReductionFactor Analysis就进入了Factor的主对话框。在Factor的主对话框将x1 x8选入Variables框。在Descritives子对话框选中选择“Coefficients”,按Continue回到Factor的主对话框选择OK按钮输出结果,SPSS 在调用Factor Analyz
20、e 过程进行分析时,首先会自动对原始变量进行标准化,因此以后的输出结果中在通常情况下都是指标准化后的变量。在结果输出中会涉及一些因子分析中的内容,因此这里仅给出与主成分分析有关的部分如下:Correlation Matrix GDP居民消费水平固定资产投资职工平均工资货物周转量居民消费价格指数商品零售价格指数工业总产值CorrelationGDP1.000.267.951.187.617-.273-.264.874 居民消费水平.2671.000.426.716-.151-.235-.593.363 固定资产投资.951.4261.000.396.431-.280-.359.792 职工平均工
21、资.187.716.3961.000-.357-.145-.543.099 货物周转量.617-.151.431-.3571.000-.253.022.659 居民消费价格指数-.273-.235-.280-.145-.2531.000.763-.125 商品零售价格指数-.264-.593-.359-.543.022.7631.000-.192 工业总产值.874.363.792.099.659-.125-.1921.000表1 1. 1 为8个原始变量之间的相关系数矩阵,可见许多变量之间直接的相关性比较强,的确存在信息上的重叠。Total Variance ExplainedCompone
22、ntInitial EigenvaluesExtraction Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %13.75446.92446.9243.75446.92446.92422.20327.53274.4562.20327.53274.45631.20815.09689.5511.20815.09689.5514.4035.04294.593 5.2142.67397.266 6.1381.72298.988 7.066.82999.817 8.015.183100
23、.000 Extraction Method: Principal Component Analysis.表1 1. 2 给出的是各成分的方差贡献率和累计贡献率,由表1 1. 2 可知,只有前3个特征根大于1,因此SPSS只提取了前三个主成分。第一主成分的方差所占所有主成分方差的46.92%,接近一半,前三个主成分的方差贡献率达到9.55% ,因此选前三个主成分己足够描述经济发展的水平。Component Matrix(a) Component 123GDP.884.385.120居民消费水平.606-.596.277固定资产投资.911.163.213职工平均工资.465-.725.362货
24、物周转量.486.737-.279居民消费价格指数-.510.257.794商品零售价格指数-.621.596.433工业总产值.822.429.210Extraction Method: Principal Component Analysis.a 3 components extracted.随后表1 1. 3 中的输出为主成分系数矩阵,可以说明各主成分在各变量上的载荷,从而得出各主成分的表达式,注意在表达式中各变量己经不是原始变量,而是标准化变量。由于各自变量己经过标准化,因此以上三个主成分的均数均为0。可以证明,各主成分的方差应当为前述特征根,但这里计算出的数值方差均为特征根的平方,即
25、各主成分的原始数值还应该除以一个特征根的平方根才行,在第1主成分的表达式中,X1,X2 ,X3,X8的系数较大,可以看成是反映GDP、固定资产投资、居民消费水平和工业总产值的综合指标。在第2主成分中,X4和X5的系数较大,可以看成是反映职工平均工资和货物周转量方面的综合指标。在第3主成分中,X6系数较大,可以看成是反映居民消费价格指数方面的综合指标。主成分分析本质上是一种矩阵变换过程,并不要求各主成分部具有实际意义,本例中各主成分含义显得并不十分明确,我们将进一步在因子分析中对其继续进行分析,操作如下:选择Analyze下拉菜单中的Data Reduction中的Factor Analysis
26、,在Factor的主对话框将x1 x8选入Variables框。在Factor的主对话框中的Descritives子对话框选中选择“KMO and Bartletts test of sphericity”,按Continue回到Factor的主对话框选择OK按钮输出结果。这里只对比较重要的结果加以解释,对相同的输出结果不再重复说明。KMO 和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关阵是否是单位阵。KMO and Bartletts TestKaiser-Meyer-Olkin Measure of Sampling
27、 Adequacy.620Bartletts Test of SphericityApprox. Chi-Square231.285df28Sig.000由Bartlett检验可以看出,应拒绝各变量独立的假设,即变量问具有较强的相关性。但是KMO 统计量为0.620,小于0.7,说明各变量问信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。CommunalitiesInitialExtractionGDP1.000.945居民消费水平1.000.799固定资产投资1.000.902职工平均工资1.000.873货物周转量1.000.857居民消费价格指数1.
28、000.957商品零售价格指数1.000.928工业总产值1.000.904Extraction Method: Principal Component Analysis.变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由上表中所示的变量共同度可知:几乎所有变量共同度都在80% 以上,因此提取出的这几个公因子对各变量的解释能力是较强的。随后会输出方差累计贡献率表格,和主成分分析中完全相同,因此省略。Component Matrix(a) Component 123GDP.884.385.120居民消费水平.606-.596.277固定资产投资.911
29、.163.213职工平均工资.465-.725.362货物周转量.486.737-.279居民消费价格指数-.510.257.794商品零售价格指数-.621.596.433工业总产值.822.429.210Extraction Method: Principal Component Analysis.a 3 components extracted.表1 1. 6 为曾经阅读过的因子载荷矩阵,在前面己经直接按列的方向将其解释为各主成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。在表达式中各变量己经不是原始变量,而是标准化变量。表示特殊因子,是除了
30、这4个公因子外影响该变量的其他因素,其对该变量的影响程度为1变量共同度。原来设计了8个变量来表示经济发展水平,而经过因子分析后,只需用三个因子即可描述影响地区经济发展状况。因子分析要求提取出的公因子有实际含义,但是从上面各因子和原始变量的相关系数可以看出,现在各因子的意义不是很明显,为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行旋转,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易进行解释。对于本例可以采用方差最大旋转加以分析,如果对于各种旋转方法没有把握,选择它一般没有什么问题。在Factor的主对话框中的Rotation子对话框选中选择“Varimax
31、”,按Continue回到Factor的主对话框选择OK按钮输出结果变化如下:Total Variance ExplainedComponentInitial EigenvaluesExtraction Sums of Squared LoadingsRotation Sums of Squared LoadingsTotal% of VarianceCumulative %Total% of VarianceCumulative %Total% of VarianceCumulative %13.75446.92446.9243.75446.92446.9243.20740.09240.09
32、222.20327.53274.4562.20327.53274.4562.21727.70867.80031.20815.09689.5511.20815.09689.5511.74021.75289.5514.4035.04294.593 5.2142.67397.266 6.1381.72298.988 7.066.82999.817 8.015.183100.000 Extraction Method: Principal Component Analysis.方差解释表格最右侧会给出旋转后各因子的载荷情况,只有前三个特征根大于1,因此SPSS 只提取了前三个公因子。在旋转后三个公因子
33、的方差累计贡献均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为89.55% ,和旋转前完全相同,因此选前三个因子己足够描述经济发展的水平。Rotated Component Matrix(a) Component123GDP.955.124-.131居民消费水平.219.841-.209固定资产投资.872.351-.137职工平均工资.048.925-.121货物周转量.751-.507-.192居民消费价格指数-.135-.013.969商品零售价格指数-.104-.496.819工业总产值.944.109-.014Extraction Method: Princi
34、pal Component Analysis.Rotation Method: Varimax with Kaiser Normalization.a Rotation converged in 5 iterations.进行方差最大旋转后,旋转后的因子载荷矩阵如上所示,可以看出第一公因子在X1、X2、X5和X8有较大的载荷,主要从GDP、固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在X2、X4有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水平,因此命名为消费因子。第二公因子在X6和X7上有较大载荷,表现为居民消费价格指数和水平价格指数方面,因
35、此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。前面得到了因子结构表达式,可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。公因子的表达式也称为因子得分函数系数,但是在因子分析中,不能像主成分分析一样,直接从列的分析得到公因子的表达式,也就是它不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得。最常用的估计方法是Regression 回归法,也是SPSS的默认估计方法。其次也可以用Bartlett或者AndersonRubin 估计法。在Score子对话杠中选择“Display factor score coeffici
36、ent matrix”,即可输出因子得分函数的系数矩阵。如果还选择了Save as variables,则SPSS 还可以直接保存各因子得分值为一个变量。估计出因子得分函数后,虽然可以人工计算出因子得分,但是需要先将变量标准化,再输入公式计算,比较麻烦,而通过该选项就可以直接将各因子的得分存为相应的新变量。在本例中可以得到了如表1 1. 10 所示的因子得分函数系数矩阵,据此可以直接写出各公因子的表达式。Component Score Coefficient Matrix Component123GDP.306.011.047居民消费水平.025.387.040固定资产投资.270.129.0
37、75职工平均工资-.025.451.096货物周转量.248-.319-.139居民消费价格指数.070.180.653商品零售价格指数.077-.098.462工业总产值.317.026.123Extraction Method: Principal Component Analysis.Rotation Method: Varimax with Kaiser Normalization.Component Scores.在上例中,介绍了如何计算主成分。实际上,在统计界对于主成分分析法是否能作为一种独立的统计方法还存在争议,很多人认为主成分分析法只是一种思想,只能被看成是其他多元统计分析方法
38、的基础。统计软件的设定也各不相同, SPSS就没有把主成分分析法单独列出,但在另一些统计软件中主成分分析法却又单独存在。的确,从应用范围和功能上讲,因子分析法完全能够替代主成分分析法,并且功能更为强大。但是,不管怎么说,主成分分析法还是有其独到之处的,特别是在综合评价和主成分回归(用各主成分得分作为新的自变量来代替原来的多个自变量,以消除多重共线性)时相当有用。二、聚类分析模型例2 为了反映中国各地区的生活水平差异性,我们收集整理了2002 年中国部分省市的国民经济数据,具体包括: x1:人均粮食支出(元/人),x2:人均副食支出(元/人),x3:人均烟、酒、饮料支出(元/人),x4:人均其他
39、副食支出(元/人),x5:人均衣着支出(元/人),x6:人均日用杂品支出(元/人),x7:人均水电燃料支出(元/人),x8:人均其他非商品支出 (元/人),数据具体情况详见附表。现希望通过聚类分析的方法把相似的省份找出来,即把这些省份归为若干的类别,从而更好地了解中国各市地区生活水平的差异。在SPSS 中,实现层次聚类法的过程步骤如下:使用SPSS软件中的Analyze Classify Hierarchical Cluster,就进入了层次聚类分析的对话框。在系统聚类分析的主对话框将x1x8添加到Variable(s)框,将“城市”添加到Label Cases by框。在plots子对话框选
40、中“Dendrogram”,按Continue返回系统聚类分析的主对话框。在Method子对话框中的“Cluster Method”选择“Wards method”,在“Standardize”中选“Z scores”按Continue返回系统聚类分析的主对话框,按“OK”。在层次聚类法的操作过程中,只需按照菜单、对话杠中提供的项目进行选择就可以完成了,根据以上设置, SPSS 给出的聚类结果如下:Agglomeration ScheduleStageCluster CombinedCoefficientsStage Cluster First AppearsNext StageCluster
41、 1Cluster 2Cluster 1Cluster 212730.27800421423.6460016329311.1820010427281.7701075482.3730012617243.0170017716273.68104108374.3630022918225.14900131016296.05373181112257.099002412458.18050181315189.293091414101510.84101317152612.432002016142014.036202117101716.350146261841619.777121022191923.57000232021327.4811502521142131.60216026223436.373818242311142.602190282431249.0712211272521957.6152002926101468.2751721272731085.211242630281261