《何晓群《多元统计分析》第三版数据说课材料.doc》由会员分享,可在线阅读,更多相关《何晓群《多元统计分析》第三版数据说课材料.doc(96页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Good is good, but better carries it.精益求精,善益求善。何晓群多元统计分析第三版数据-何晓群多元统计分析第三版(2012)数据下载第2章例2-11999年财政部、国家经贸委、人事部和国家计委联合发布了国有资本金效绩评价规则。其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,以下数据为35家上市公司2008年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息
2、技术业,在后面各章中也经常以该数据为例进行分析。表2-1行业公司简称股票代码净资产收益率总资产报酬率资产负债率总资产周转率流动资产周转率已获利息倍数销售增长率资本积累率电力、煤气及水的生产和供应业深圳能源0000279.174.9253.45.391.573.562.7633.00深南电000037.611.2361.17.601.741.41-12.81-.01富龙热电000426-11.30-5.5648.89.13.76-.34-40.10-9.93穗恒运000531-7.70-1.5370.25.572.70.61-29.45-7.15粤电力000539.34-1.1554.84.48
3、2.42.5211.78-7.72韶能股份000601-2.95-1.2961.79.272.52.5315.77-4.67ST惠天000692-1.86-.8163.34.401.09.438.08-1.82城投控股60064912.288.4639.92.25.5740.2029.21-2.19大连热电6007191.58.9660.53.32.701.31-3.44.75华电能源600726.43.3377.63.402.391.0812.66-6.04国电电力6007951.26.2071.65.261.681.10-5.885.68房地行业长春经开600215.09.2129.10.
4、05.081.239.07.09大龙地产6001591.21.0961.63.04.051.84-57.90-.08金丰投资6006069.786.5146.07.20.316.22-51.99-8.40新黄浦6006386.815.9631.91.12.315.57-18.484.99浦东金桥6006399.026.1642.74.20.864.5140.624.75外高桥6006486.902.0978.11.702.477.0419.885.21中华企业60067514.316.8263.67.37.445.8933.9311.82渝开发0005146.535.1431.61.14.40
5、4.42-15.566.64莱茵置业00055821.227.9573.67.44.521.04-13.1528.42粤宏远000573-8.47-4.8444.12.14.24-3.90-26.72-7.81中国国贸6000078.406.2148.06.123.041.101.205.06万科A00000212.655.7767.44.37.3910.6215.388.93三木集团0006321.961.0580.12.88.951.74-11.30-9.55国兴地产0008382.972.2144.34.17.1730.65-74.763.06中关村0009319.691.7280.11
6、.47.572.03-7.901.59信息技术业中兴通讯00006311.655.0270.15.981.214.2827.3617.40长城电脑0000661.01.3953.931.353.571.22-6.99-30.87南天信息0009489.486.6145.431.061.414.6215.13110.72同方股份6001003.572.6353.32.78.002.79-4.7726.72永鼎股份6001052.541.6971.91.42.631.8727.492.63宏图高科60012210.715.4257.491.772.123.2133.0311.23新大陆000997
7、4.543.7431.88.861.097.4918.42-6.27方正科技6006014.423.1643.951.404.673.06-13.584.73复旦复华6006244.443.6849.44.53.853.1913.572.60习题3.今选取内蒙古、广西、贵州、云南、西藏、宁夏、新疆、甘肃和青海等9个内陆边远省份。选取人均GDP、第三产业比重、人均消费支出、人口自然增长率及文盲半文盲人口占15岁以上人口的比例等五项能够较好的说明各地区社会经济发展水平的指标。验证一下边远及少数民族聚居区的社会经济水平与全国平均水平有无显著差异。边远及少数民族聚居区的社会经济水平发展的指标数据:地区
8、人均GDP三产比重人均消费人口增长文盲半文盲内蒙古506831.121418.2315,83广西407634.220409.0113.32贵州234229.8155114.2628.98云南435531.1205912.125.48西藏371643.5155115.957.97宁夏427037.3194713.0825.56新疆622935.4274512.8111.44甘肃345632.8161210.0428.65青海436740.9204714.4842.92数据来源:中国统计年鉴(1998)。5项指标的全国平均水平0=(6212.0132.8729729.515.78)/第3章例3-1
9、若我们需要将下列11户城镇居民按户主个人的收入进行分类,对每户作了如下的统计,结果列于表3-1。在表中,“标准工资收入”、“职工奖金”、“职工津贴”、“性别”、“就业身份”等称为指标,每户称为样品。若对户主进行分类,还可以采用其他指标,如“子女个数”、“政治面貌”等,指标如何选择取决于聚类的目的。表3-1某市2001年城镇居民户主个人收入数据X1职工标准工资收入X5单位得到的其他收入X2职工奖金收入X6其他收入X3职工津贴收入X7性别X4其他工资性收入X8就业身份X1X2X3X4X5X6X7X8540.000.00.00.00.06.00男国有1137.00125.0096.000.0109.
10、00812.00女集体1236.00300.00270.000.0102.00318.00女国有1008.000.096.000.086.0246.00男集体1723.00419.00400.000.0122.00312.00男国有1080.00569.00147.00156.00210.00318.00男集体1326.000.0300.000.0148.00312.00女国有1110.00110.0096.000.080.00193.00女集体1012.0088.00298.000.079.00278.00女国有1209.00102.00179.0067.00198.00514.00男集体1
11、101.00215.00201.0039.00146.00477.00男集体例3-3EnglishNorwegianDanishDutchGermanFrenchOneEneneeneinunTwoTototweezweideuxThreeTretredriedreitroisFourFirefireviervierquatreFiveFemfemvijffunfeinqSixSekssekszessechssixsevenSjusyvzevensiebcnseptEightAteotteachtachthuitNineNininegenneunneufTenTititienzehndixSp
12、anishItalianPolishHungarianFinnishUnounojedenegyyksiDosduedwakettokaksiTrestretrzyharomkolmecuatroquattroczterynegyneuaCincocinquepiecotviisiSeixseiszeschatkuusiSietesettesiedemhetseitsemanOchoottoosiemnyolckahdeksaunuevenovedziewieckilencyhdeksanDiezdiecidziesiectizkymmenen例3-4X1食品支出(元/人)X5交通和通讯支出(
13、元/人)X2衣着支出(元/人)X6娱乐、教育和文化服务支出(元/人)X3家庭设备、用品及服务支出(元/人)X7居住支出(元/人)X4医疗保健支出(元/人)X8杂项商品和服务支出(元/人)X1X2X3X4X5X6X7X8辽宁1772.14568.25298.66352.20307.21490.83364.28202.50浙江2752.25569.95662.31541.06623.05917.23599.98354.39河南1386.76460.99312.97280.78246.24407.26547.19188.52甘肃1552.77517.16402.03272.44265.29563.1
14、0302.27251.41青海1711.03458.57334.91307.24297.72495.34274.48306.45例3-5x1人均粮食支出(元/人)x5人均衣着支出(元/人)x2人均副食支出(元/人)x6人均日用杂品支出(元/人)x3人均烟、酒、饮料支出(元/人)x7人均水电燃料支出(元/人)x4人均其他副食支出(元/人)x8人均其他非商品支出(元/人)x1x2x3x4x5x6x7x8北京21.30124.8935.4373.9893.0120.5843.97433.73天津21.50122.3929.0851.6455.0411.3054.88288.13河北18.2590.2
15、124.4532.4462.487.4547.50178.84山西21.8466.3818.0531.3274.488.1934.97177.45内蒙古21.3767.0820.2835.2781.0710.9439.46182.20辽宁22.74115.8828.2142.4458.079.6348.65194.85吉林20.2288.9418.5435.6365.728.8150.29186.52黑龙江21.3375.5014.0029.5669.298.2442.08165.90上海21.13168.6940.8170.1274.3215.4650.90422.74江苏18.61122.
16、5127.0742.5063.4715.3836.14240.92浙江19.96142.2443.3350.74101.7712.9253.44394.55安徽19.61107.1332.8535.7761.347.5334.60142.23福建25.56171.6522.3040.5357.1312.6054.03225.08江西18.75104.6815.5535.6151.8011.1836.27142.72山东18.2788.3419.0743.1972.9812.5942.16200.18河南19.0773.1818.0129.3864.518.9138.14155.45湖北18.7
17、6102.6721.8730.4764.3311.9942.14168.17湖南20.25104.4520.7238.1562.9812.6739.16213.56广东23.68173.3017.4343.5953.6616.8665.02385.94广西18.70131.3511.6932.0641.5410.8442.77178.51海南16.16139.9212.9823.5824.8710.7632.35144.21重庆18.18120.3926.1837.9468.1611.6438.48246.37四川18.53109.9521.4933.0450.9810.8833.96183.
18、85贵州18.3392.4325.3832.1956.3214.0038.57144.82云南22.3099.0833.3632.0152.067.0432.85190.04西藏29.67146.9064.5154.3686.1014.7732.19193.10陕西20.0370.7519.7534.9553.2910.5538.20189.41甘肃18.6872.7423.7238.6962.419.6535.26170.12青海20.3375.6420.8833.8653.8110.0632.82171.32宁夏19.7570.2418.6736.7161.7510.0840.26165.
19、22新疆21.0378.5514.3534.3364.989.8333.87161.67第4章例4-1判别分析的一个重要应用是用于动植物的分类当中,最著名的一个例子是1936年Fisher的鸢尾花数据(IrisData)。鸢尾花为法国的国花,Setosa、Versicolour、Virginica是三种有名的鸢尾花,其萼片是绚丽多彩的,和向上的花瓣不同,花萼是下垂的。这三种鸢尾花很像,人们试图建立模型,根据萼片和花瓣的四个度量来把鸢尾花分类。该数据给出150个鸢尾花的萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)、花瓣宽(petalwidth
20、)以及这些花分别属于的种类(Species)等共五个变量。萼片和花瓣的长宽为四个定量变量,而种类为分类变量(取三个值Setosa、Versicolour、Virginica)。这里三种鸢尾花各有50个观测值。数据格式如下图所示:定义新的变量y为被解释变量,用“1”代表Setosa鸢尾花,用“2”代表Versicolour鸢尾花,用“3”代表Virginica鸢尾花,将萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)四个变量作为解释变量。使用SPSS软件中的AnalyzeClassifyDiscriminant,就
21、进入了判别分析的对话框。分组变量(GroupingVariable)选择y,然后定义的区域,最小值是1,最大值是3。解释变量(Independents)选择sepal.length、sepal.width、petal.length和petal.width。统计量(Statistics)选项中选择描述统计量Means,UnivariateANOVAs和BoxM,函数选择Fisher和非标准化函数,矩阵选择Within-groupscorrelation。分类(Classify)选项中选择先验概率(所有组相等或根据组的大小计算概率),因为三个品种的都是50种,因此两种选择的效果一样,子选项显示(d
22、isplay)中选择每个个体的结果(Casewiseresults),综合表(SummeryTable)和“留一个在外”(Leave-one-outclassifation)的验证原则,协方差矩阵选择Within-groups,作图选择Combined-groups。保存(Save)选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法,我们还可以选择判别的方法(Method)。得到分析结果如下:输出结果4-1Discriminant(1)(2)(3)输出结果4-1分析的是各组的描述统计量和对各组均值是否相等的检验。第1张表反映的是有效样本量及变量缺失的情况。第2张表是各组变
23、量的描述统计分析。第3张表是对各组均值是否相等的检验。由第3张表可以看出,在0.01的显著性水平上我们拒绝变量萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值相等的假设,即认为变量萼片长(sepallength)、萼片宽(sepalwidth)、花瓣长(petallength)和花瓣宽(petalwidth)在三组的均值是有显著性差异的。输出结果4-2BoxsTestofEqualityofCovarianceMatrices(1)(2)输出结果4-2是对各组协方差矩阵是否相等的BoxM检验。第1张表
24、反映协方差矩阵的秩和行列式的对数值。由行列式值可以看出协方差矩阵不是病态矩阵。第2张表是对各总体协方差阵是否相等的统计检验。由值及其显著水平,我们在0.05的显著性水平下拒绝原假设(原假设假定各总体协方差阵相等)。因此,在分类(Classify)选项中的协方差矩阵选择可以考虑采用Separate-groups,以检验采用Within-groups和Separate-groups两种协方差所得出的结果是否存在显著差异。如果存在显著差异就应该采用Separate-groups协方差矩阵,反之,就用Within-groups协方差矩阵。输出结果4-3SummaryofCanonicalDiscrim
25、inantFunctions(1)(2)输出结果4-3分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。第一判别函数解释了99.1的方差,第二判别函数解释了0.9%的方差,两个判别函数解释了全部方差。第2张表是对两个判别函数的显著性检验。由WilksLambda检验,认为两个判别函数在0.05的显著性水平上是显著的。输出结果4-4(1)(2)(3)(4)输出结果4-4显示的是判别函数、判别载荷和各组的重心。第1张表是标准化的判别函数,表示为,这里表示标准化变量,标准化变量的系数也就是前面讲的判别权重。第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两
26、个解释变量对判别函数的贡献较大。第3张表是非标准化的判别函数,表示为我们可以根据这个判别函数计算每个观测的判别Z得分。第4张表是反映判别函数在各组的重心。根据结果,判别函数在这一组的重心为(-7.608,0.215),在这一组的重心为(1.825,-0.728),在这一组的重心为(5.783,0.513)。这样,我们就可以根据每个观测的判别Z得分将观测进行分类。输出结果4-5ClassificationStatistics(1)(2)(3)(4)(5)输出结果4-5是分类的统计结果。第1张表概括了分类过程,说明150个观测都参与分类。第2张表说明各组的先验概率,我们在Classify选项中选择
27、的是所有组的先验概率相等。第3张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数,由表中的结果可以说明,这一组的分类函数是这组的分类函数是这组的分类函数是。我们可以计算出每个观测在各组的分类函数值,然后将观测分类到较大的分类函数值中。第4张表是分类矩阵表。PredictedGroupMembership表示预测的所属组关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。由第4张表可以看出,通过判别函数预测,有147个观测是分
28、类正确的,其中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而有147/150=98%的原始观测被判对。在交叉验证中,组50个观测全部被判对,组50个观测中有48个观测被判对,组50个观测中有49个观测被判对,从而交叉验证有147/150=98%的原始观测被判对。还可以通过分类结果分析判对和判错的百分比。第(5)为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。我们还可以通过保存(
29、Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。由前面分析我们发现,协方差矩阵不等,可以考虑采用Separate-groups协方差矩阵,选择Separate-groups协方差矩阵,其他选择同上,得分类结果表如下:输出结果4-6(1)(2)由第1张表可以看出,通过判别函数预测,有146个观测是分类正确的,其中,组50个观测全部被判对,组50个观测中有47个观测被判对,组50个观测中有49个观测被判对,从而有146/150=97.3%的原始观测被判对。第(2)为分类结果图,从图中可以看到,Setosa鸢尾花与Versicolour鸢尾花和Virginica鸢尾花可以很清晰的区分开
30、,而Versicolour鸢尾花和Virginica鸢尾花这两种之间存在重合区域,即存在误判。由输出结果4-6可以看出,采用Separate-groups协方差矩阵与采用Within-groups协方差矩阵的预测效果没有明显的差别,因此,可以采用Within-groups协方差矩阵来进行判别。例4-2距离判别案例。为了研究2008年全国各地区城镇居民家庭人均消费支出情况,按人均收入、人均GDP以及消费支出将29个省、市、自治区(除天津和陕西以外)分为三种类型,设置group变量取值分别为1、2、3。试建立判别函数,判定天津、陕西分别属于哪个消费水平类型。判别指标及原始数据见表41。解:本例中组
31、数k=3,判别指标p=8,各组中样本为:,待判样品个数为2。总体协差阵的逆矩阵:表4-12008年31个省、市、自治区农村居民家庭平均每人生活消费支出x1人均食品支出(元/人)x5人均交通和通信支出(元/人)x2人均衣着支出(元/人)x6人均文教娱乐用品及服务支出(元/人)x3人均住房支出(元/人)x7人均医疗保健支出(元/人)x4人均家庭设备及服务支出(元/人)x8其他商品及服务支出(元/人)序号地区x1x2x3x4x5x6x7x8Group1上海7108.621520.611646.191182.24755.293373.192874.54937.2112广东5866.91975.0617
32、48.16947.54836.392623.081936.38594.4513北京5561.541571.741286.321096.571563.12293.232383.52704.2414浙江5522.561546.461333.69713.31933.112392.632195.58520.9515江苏4544.641166.911042.1813.45794.631357.961799.75458.116福建5078.851105.311300.1722.17540.631777.061453.18523.8327重庆4418.341294.31096.82842.09878.251
33、044.361267.03305.628云南4272.291026.5739.2331.94606.861216.46732.95150.4229西藏4262.771011.82634.94310.22317.08966.74419.59400.38210四川4255.481042.45819.28590.51564.931121.45947.01338.03211海南4226.9491.841106.39565.51536.41303.5930.87247.08212广西4082.99772.28891.33603.84529.361376.031081.54290.04213湖北3996.
34、271099.16914.26604.4675.32890.121037.24260.74214湖南3970.421090.72960.82674.84790.95971.051110.11376.62215安徽3905.051010.61988.12579.59633.93920.771160.14325.82216山东3699.421394.111247.04806.35799.791410.451277.43372.01217江西3633.05969.58851.15623.17483.96872.57945.99337.91218贵州3597.94851.5836.54525.7471
35、.39871.15934.73260.27219辽宁4378.141187.411270.95507.4913.131295.71145.46533.29320内蒙古3553.481616.561028.19672.64869.711191.71383.53512.81321宁夏3352.831178.881069.15596.81816.871096.321043.72403.71322青海3315.94945.14802.73538.54610.02787.63880.86311.72323吉林3307.141259.621285.28510.49914.47954.961071.8425
36、.3324新疆3235.771245.02781.9535.31643.481003.89812.36411.63325甘肃3183.791022.62846.26546.23654.82817.17936.33301.4326河北3155.41137.221097.41574.84808.881062.31946.38304.28327黑龙江3128.11217.04941.25494.49864.89749.05906.19321.95328河南3079.821141.76963.59633.32790.87915.12988.95324.03329山西2974.761137.711250
37、.87471.65769.79931.331041.91228.5331天津5005.091153.661528.28817.181220.921567.871608.97520.492陕西3586.131047.611007.68618.16862.7967.521281.58400.68资料来源:中国统计年鉴2008距离判别法无法在SPSS中直接实现,在R软件中运行如下程序,可得。距离判别程序:#读取数据(数据集为“城镇消费.csv”)a=read.csv(d:/data/城镇消费.csv,header=T);a;names(a);attach(a);a1=a1:5,;a1;a2=a6:1
38、8,;a2;a3=a20:29,;a3;#计算协方差阵、逆矩阵、和各组均值v=cov(a,3:10);v;v_1=solve(v);v_1;m=mean(a,3:10);m;m1=mean(a13:10);m1;m2=mean(a23:10);m2;m3=mean(a33:10);m3;#计算与三组的距离d1=c(1:31);i=1for(iin1:31)if(i=31)d1i=as.matrix(ai,3:10-m1)%*%matrix(v_1,8,8)%*%matrix(t(ai,3:10-m1),8,1)d1i;i=i+1d1;d2=c(1:31);j=1;for(jin1:31)if(
39、j=31)d2j=as.matrix(aj,3:10-m2)%*%matrix(v_1,8,8)%*%matrix(t(aj,3:10-m2),8,1)d2j;j=j+1d2;d3=c(1:31);k=1for(kin1:31)if(k=31)d3k=as.matrix(ak,3:10-m3)%*%matrix(v_1,8,8)%*%matrix(t(ak,3:10-m3),8,1)d3k;k=k+1d3;#预测及回判s1=c(1:31)distance=c(1:31)z=1;for(zin1:31)if(d1z=min(d1z,d2z,d3z)s1z=1;if(d2z=min(d1z,d2z,d3z)s1z=2;if(d3z=min(d1z,d2z,d3z)s1z=3;s1z;distancez=min(d1z,d2z,d3z);z=z+1s1;#输出结果output=matrix(c(s,distance,s1),31,3);row.name=area;col.name=c