第五讲的多元统计分析.ppt-淘文阁

资源描述

《第五讲的多元统计分析.ppt》由会员分享，可在线阅读，更多相关《第五讲的多元统计分析.ppt（37页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第五讲的多元统计分析现在学习的是第1页，共37页SAS多元统计分析概论多元统计分析概论多元统计分析是统计学的重要应用工具，多元统计分析是统计学的重要应用工具，SASSAS实现了许多常用的多实现了许多常用的多元统计分析方法。元统计分析方法。SASSAS用于多变量分析的过程有用于多变量分析的过程有PRINCOMPPRINCOMP（主分量分析）、（主分量分析）、FACTORFACTOR（因子分析）、（因子分析）、CANCORRCANCORR（典型相关分析）、（典型相关分析）、MDSMDS（多维标度过（多维标度过程）、程）、MULTTESTMULTTEST（多重检验）、（多重检验）、PRINQUALP

2、RINQUAL（定性数据的主分量分析）、（定性数据的主分量分析）、CORRESPCORRESP（对应分析），用于判别分析的过程有（对应分析），用于判别分析的过程有DISCRIMDISCRIM（判别分析）（判别分析）、CANDISCCANDISC（典型判别）、（典型判别）、STEPDISCSTEPDISC（逐步判别），用于聚类分析的过（逐步判别），用于聚类分析的过程有程有CLUSTERCLUSTER（谱系聚类）、（谱系聚类）、FASTCLUSFASTCLUS（K K均值快速聚类）、均值快速聚类）、MODECLUSMODECLUS（非参数聚类）、（非参数聚类）、VARCLUSVARCLUS（变量聚

3、类）、（变量聚类）、TREETREE（画谱系聚类的结果（画谱系聚类的结果谱系图并给出分类结果）。我们主要介绍一些最常见的多元统计方法。谱系图并给出分类结果）。我们主要介绍一些最常见的多元统计方法。现在学习的是第2页，共37页SAS多元统计分析概论多元统计分析概论现实中的统计对象经常用多个指标来表示，比如人口普查，就可以现实中的统计对象经常用多个指标来表示，比如人口普查，就可以有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、有姓名、性别、出生年月日、籍贯、婚姻状况、民族、政治面貌、地区等，企业调查，可以有净资产、负债、盈利、职工人数、还贷地区等，企业调查，可以有净资产、负债、盈利、职工

4、人数、还贷情况等等。多个指标（变量）可以分别进行分析，但是，我们往往情况等等。多个指标（变量）可以分别进行分析，但是，我们往往希望综合使用这些指标，这时，有主分量分析、因子分析等方法可希望综合使用这些指标，这时，有主分量分析、因子分析等方法可以把数据的维数降低，同时又尽量不损失数据中的信息。以把数据的维数降低，同时又尽量不损失数据中的信息。现在学习的是第3页，共37页SAS多元统计分析概论多元统计分析概论I.主分量分析主分量分析一、理论介绍一、理论介绍主分量分析的目的是从原始的多个变量取若干线性组合，能尽可能多地主分量分析的目的是从原始的多个变量取若干线性组合，能尽可能多地保留原始变量保留原始

5、变量中的信息。从原始变量到新变量是一个正交变换（坐标中的信息。从原始变量到新变量是一个正交变换（坐标变换）。设有变换）。设有是一个维随机变量，有二阶矩，记维随机变量，有二阶矩，记，。考虑它的线性变换。考虑它的线性变换现在学习的是第4页，共37页现在学习的是第5页，共37页现在学习的是第6页，共37页现在学习的是第7页，共37页现在学习的是第8页，共37页SAS的的PRINTCOMP过程有如下功能：过程有如下功能：l完成主分量分析。完成主分量分析。l主分量的个数可以由用户自己确定，主分量的名字可以用户自己规定，主分量主分量的个数可以由用户自己确定，主分量的名字可以用户自己规定，主分量得分是否标

6、准化可自己规定。得分是否标准化可自己规定。l输入数据集可以是原始数据集、相关阵、协方差阵或叉积阵。输入为原始输入数据集可以是原始数据集、相关阵、协方差阵或叉积阵。输入为原始数据时，用户还可以规定从协方差阵出发还是从相关阵出发进行分析。由协数据时，用户还可以规定从协方差阵出发还是从相关阵出发进行分析。由协方差阵出发时方差大的变量在分析中起到更大的作用。方差阵出发时方差大的变量在分析中起到更大的作用。l计算结果有：简单统计量，相关阵或协方差阵，从大到小排序的特征值计算结果有：简单统计量，相关阵或协方差阵，从大到小排序的特征值和相应特征向量，每个主分量解释的方差比例，累计比例等。可生成两和相应特征向

7、量，每个主分量解释的方差比例，累计比例等。可生成两个输出数据集：一个包含原始数据及主分量得分，另一个包含有关统计个输出数据集：一个包含原始数据及主分量得分，另一个包含有关统计量，类型为量，类型为TYPE=CORRTYPE=CORR或或COVCOV。l可揭示变量间的共线关系。若某特征值特别接近可揭示变量间的共线关系。若某特征值特别接近0 0说明变量线性相关，说明变量线性相关，这时用这些变量作回归自变量可能得到错误的结果。这时用这些变量作回归自变量可能得到错误的结果。现在学习的是第9页，共37页lPRINCOMPPRINCOMP主要使用主要使用PROC PRINCOMPPROC PRINCOMP语

8、句与语句与VARVAR语句。语句。PROC PRINCOMPPROC PRINCOMP语语句用来规定输入输出和一些运行选项，包括：句用来规定输入输出和一些运行选项，包括：lDATA=DATA=输入数据集，可以是原始数据集，也可以是输入数据集，可以是原始数据集，也可以是TYPE=CORR,COVTYPE=CORR,COV的数的数据集据集lOUT=OUT=输出包含原始数据和主分量得分的数据集输出包含原始数据和主分量得分的数据集lOUTSTAT=OUTSTAT=统计量输出数据集统计量输出数据集lCOV COV 要求从协方差阵出发计算主分量。缺省为从相关阵出发计算。要求从协方差阵出发计算主分量。缺省为

9、从相关阵出发计算。lN=N=要计算的主分量个数。缺省时全算。要计算的主分量个数。缺省时全算。lNOINT NOINT 要求在模型中不使用截距项。这时统计量输出数据集类型为要求在模型中不使用截距项。这时统计量输出数据集类型为TYPE=UCORRTYPE=UCORR或或UCOVUCOV。lSTD STD 要求在要求在OUT=OUT=的数据集中把主分量得分标准化为单位方差。不规的数据集中把主分量得分标准化为单位方差。不规定时方差为相应特征值。定时方差为相应特征值。l用用VARVAR语句指定原始变量。必须为数值型（区间变量）。语句指定原始变量。必须为数值型（区间变量）。现在学习的是第10页，共37页三

10、、应用举例三、应用举例例例1 1一月和七月平均气温的主分量分析一月和七月平均气温的主分量分析在数据集TEMPERAT中存放有美国一些城市一月和七月的平均气温。我们希望对这两个气温进行主成分分析，希望用一个统一的温度来作为总的可比的温度，所以进行主分量分析。程序如下：SAS多元统计分析概论多元统计分析概论现在学习的是第11页，共37页l/*EXAMPLE 1*/*EXAMPLE 1*/lDATADATA TEMPERAT;l INPUT CITY$1 1-1515 JANUARY JULY;l CARDS;lMOBILE 51.2 81.6lPHOENIX 51.2 91.2lLITTLE RO

11、CK 39.5 81.4lSACRAMENTO 45.1 75.2lDENVER 29.9 73.0lHARTFORD 24.8 72.7lWILMINGTON 32.0 75.8lWASHINGTON DC 35.6 78.7lJACKSONVILLE 54.6 81.0lMIAMI 67.2 82.3lATLANTA 42.4 78.0lBOISE 29.0 74.5lCHICAGO 22.9 71.9lPEORIA 23.8 75.1lINDIANAPOLIS 27.9 75.0lDES MOINES 19.4 75.1lWICHITA 31.3 80.7lLOUISVILLE 33.3

12、 76.9lNEW ORLEANS 52.9 81.9lPORTLAND,MAINE 21.5 68.0lBALTIMORE 33.4 76.6lBOSTON 29.2 73.3lDETROIT 25.5 73.3lSAULT STE MARIE 14.2 63.8lDULUTH 8.5 65.6lMINNEAPOLIS 12.2 71.9lJACKSON 47.1 81.7lKANSAS CITY 27.8 78.8lST LOUIS 31.3 78.6lGREAT FALLS 20.5 69.3lOMAHA 22.6 77.2lRENO 31.9 69.3lCONCORD 20.6 69.

13、7lATLANTIC CITY 32.7 75.1lALBUQUERQUE 35.2 78.7lALBANY 21.5 72.0lBUFFALO 23.7 70.1lNEW YORK 32.2 76.6lCHARLOTTE 42.1 78.5lRALEIGH 40.5 77.5lBISMARCK 8.2 70.8lCINCINNATI 31.1 75.6lCLEVELAND 26.9 71.4lCOLUMBUS 28.4 73.6lOKLAHOMA CITY 36.8 81.5lPORTLAND,OREG 38.1 67.1lPHILADELPHIA 32.3 76.8lPITTSBURGH

14、28.1 71.9lPROVIDENCE 28.4 72.1lCOLUMBIA 45.4 81.2lSIOUX FALLS 14.2 73.3lMEMPHIS 40.5 79.6lNASHVILLE 38.3 79.6lDALLAS 44.8 84.8lEL PASO 43.6 82.3lHOUSTON 52.1 83.3lSALT LAKE CITY 28.0 76.7lBURLINGTON 16.8 69.8lNORFOLK 40.5 78.3lRICHMOND 37.5 77.9lSPOKANE 25.4 69.7lCHARLESTON,WV 34.5 75.0lMILWAUKEE 19

15、.4 69.9lCHEYENNE 26.6 69.1l;lPROCPROC PRINCOMPPRINCOMP COV OUT=PRIN;l VAR JULY JANUARY;lRUNRUN;现在学习的是第12页，共37页组成分得分输出到了数据集组成分得分输出到了数据集PRINPRIN中，在中，在INSIGHTINSIGHT中打开中打开WORK.PRINWORK.PRIN，分，分别绘制别绘制JULYJULY对对JANUARYJANUARY、PRIN2PRIN2对对PRIN1PRIN1的散点图。从图可以看出主分的散点图。从图可以看出主分量为原始变量的一个正交旋转。量为原始变量的一个正交旋转。图 1

16、一月、七月气温的散点图和主分量散点图一月、七月气温的散点图和主分量散点图现在学习的是第13页，共37页l The SAS System 02:18 Wednesday,October 26,2005 1l The PRINCOMP Procedurel Observations 64l Variables 2l Simple Statisticsl JULY JANUARYl Mean 75.60781250 32.09531250l StD 5.12761910 11.71243309l Covariance Matrixl JULY JANUARYl JULY 26.2924777 46

17、.8282912l JANUARY 46.8282912 137.1810888l Total Variance 163.47356647l Eigenvalues of the Covariance Matrixl Eigenvalue Difference Proportion Cumulativel 1 154.310607 145.147647 0.9439 0.9439l 2 9.162960 0.0561 1.0000l Eigenvectorsl Prin1 Prin2l JULY 0.343532 0.939141l JANUARY 0.939141 -.343532显示结果如

18、下：现在学习的是第14页，共37页l输出中，第一部分为简单统计量（均值和标准差），第二部分为协方输出中，第一部分为简单统计量（均值和标准差），第二部分为协方差的特征值（注意我们在过程中用了差的特征值（注意我们在过程中用了COVCOV选项，无此选项用相关阵），从选项，无此选项用相关阵），从这里可以看到贡献率（这里可以看到贡献率（ProportionProportion）和累计贡献率（）和累计贡献率（CumulativeCumulative），第三），第三部分为特征向量。按本结果的特征向量值及用部分为特征向量。按本结果的特征向量值及用COVCOV选项规定使用协方差阵，我选项规定使用协方差阵，我们可

19、以知道两个主分量如此计算：们可以知道两个主分量如此计算：lPRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)PRIN1=0.326866(JULY-75.92)+0.945071(JANUARY-32.55)lPRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)PRIN2=0.945071(JULY-75.92)+(-0.326866)(JANUARY-32.55)l如果没有用如果没有用COVCOV选项，原始变量还需要除以标准差。由系数可见，第一选项，原始变量还需要除以标准差。由系数可见，第

20、一主分量是两个月份的加权平均，代表了一个地方的气温水平，第二主主分量是两个月份的加权平均，代表了一个地方的气温水平，第二主分量系数一正一负，反应了冬季和夏季的气温差别。分量系数一正一负，反应了冬季和夏季的气温差别。现在学习的是第15页，共37页例2美国各种类型犯罪的主分量分析在数据集CRIME中有美国各个州的各种类型犯罪的犯罪率数据。希望对这些犯罪率数据进行主分量分析以概括犯罪情况。程序如下：SAS多元统计分析概论多元统计分析概论现在学习的是第16页，共37页l/*EXAMPLE 2*/*EXAMPLE 2*/lDATADATA CRIME;l TITLE 各州每十万人的犯罪率;l INPUT

21、 STATE$1 1-1515 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO;l CARDS;lALABAMA 14.2 25.2 96.8 278.3 1135.5 1881.9 280.7lALASKA 10.8 51.6 96.8 284.0 1331.7 3369.8 753.3lARIZONA 9.5 34.2 138.2 312.3 2346.1 4467.4 439.5lARKANSAS 8.8 27.6 83.2 203.4 972.6 1862.1 183.4lCALIFORNIA 11.5 49.4 287.0 358.

22、0 2139.4 3499.8 663.5lCOLORADO 6.3 42.0 170.7 292.9 1935.2 3903.2 477.1lCONNECTICUT 4.2 16.8 129.5 131.8 1346.0 2620.7 593.2lDELAWARE 6.0 24.9 157.0 194.2 1682.6 3678.4 467.0lFLORIDA 10.2 39.6 187.9 449.1 1859.9 3840.5 351.4lGEORGIA 11.7 31.1 140.5 256.5 1351.1 2170.2 297.9lHAWAII 7.2 25.5 128.0 64.

23、1 1911.5 3920.4 489.4lIDAHO 5.5 19.4 39.6 172.5 1050.8 2599.6 237.6lILLINOIS 9.9 21.8 211.3 209.0 1085.0 2828.5 528.6lINDIANA 7.4 26.5 123.2 153.5 1086.2 2498.7 377.4lIOWA 2.3 10.6 41.2 89.8 812.5 2685.1 219.9lKANSAS 6.6 22.0 100.7 180.5 1270.4 2739.3 244.3lKENTUCKY 10.1 19.1 81.1 123.3 872.2 1662.1

24、 245.4lLOUISIANA 15.5 30.9 142.9 335.5 1165.5 2469.9 337.7lMAINE 2.4 13.5 38.7 170.0 1253.1 2350.7 246.9lMARYLAND 8.0 34.8 292.1 358.9 1400.0 3177.7 428.5lMASSACHUSETTS 3.1 20.8 169.1 231.6 1532.2 2311.3 1140.1lMICHIGAN 9.3 38.9 261.9 274.6 1522.7 3159.0 545.5lMINNESOTA 2.7 19.5 85.9 85.8 1134.7 255

25、9.3 343.1lMISSISSIPPI 14.3 19.6 65.7 189.1 915.6 1239.9 144.4lMISSOURI 9.6 28.3 189.0 233.5 1318.3 2424.2 378.4lMONTANA 5.4 16.7 39.2 156.8 804.9 2773.2 309.2lNEBRASKA 3.9 18.1 64.7 112.7 760.0 2316.1 249.1lNEVADA 15.8 49.1 323.1 355.0 2453.1 4212.6 559.2lNEW HAMPSHIRE 3.2 10.7 23.2 76.0 1041.7 2343

26、.9 293.4lNEW JERSEY 5.6 21.0 180.4 185.1 1435.8 2774.5 511.5lNEW MEXICO 8.8 39.1 109.6 343.4 1418.7 3008.6 259.5lNEW YORK 10.7 29.4 472.6 319.1 1728.0 2782.0 745.8lNORTH CAROLINA 10.6 17.0 61.3 318.3 1154.1 2037.8 192.1lNORTH DAKOTA 0.9 9.0 13.3 43.8 446.1 1843.0 144.7lOHIO 7.8 27.3 190.5 181.1 1216

27、.0 2696.8 400.4lOKLAHOMA 8.6 29.2 73.8 205.0 1288.2 2228.1 326.8lOREGON 4.9 39.9 124.1 286.9 1636.4 3506.1 388.9lPENNSYLVANIA 5.6 19.0 130.3 128.0 877.5 1624.1 333.2lRHODE ISLAND 3.6 10.5 86.5 201.0 1489.5 2844.1 791.4lSOUTH CAROLINA 11.9 33.0 105.9 485.3 1613.6 2342.4 245.1lSOUTH DAKOTA 2.0 13.5 17

28、.9 155.7 570.5 1704.4 147.5lTENNESSEE 10.1 29.7 145.8 203.9 1259.7 1776.5 314.0lTEXAS 13.3 33.8 152.4 208.2 1603.1 2988.7 397.6lUTAH 3.5 20.3 68.8 147.3 1171.6 3004.6 334.5lVERMONT 1.4 15.9 30.8 101.2 1348.2 2201.0 265.2lVIRGINIA 9.0 23.3 92.1 165.7 986.2 2521.2 226.7lWASHINGTON 4.3 39.6 106.2 224.8

29、 1605.6 3386.9 360.3lWEST VIRGINIA 6.0 13.2 42.2 90.9 597.4 1341.7 163.3lWISCONSIN 2.8 12.9 52.2 63.7 846.9 2614.2 220.7lWYOMING 5.4 21.9 39.7 173.9 811.6 2772.2 282.0l;lPROCPROC PRINCOMPPRINCOMP OUT=CRIMCOMP;lRUNRUN;lPROCPROC SORTSORT;l BY PRIN1;lPROCPROC PRINTPRINT;l ID STATE;l VAR PRIN1 PRIN2 MUR

30、DER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO;l TITLE2 各州按第一主分量作为总犯罪率排列;lPROCPROC SORTSORT;l BY PRIN2;lPROCPROC PRINTPRINT;l ID STATE;l VAR PRIN1 PRIN2 MURDER RAPE ROBBERY ASSAULT BURGLARY LARCENY AUTO;l TITLE2 各州按第二主分量作为金钱犯罪与暴力犯罪对比的排列;lPROCPROC GPLOTGPLOT;l PLOT PRIN2*PRIN1=STATE;l TITLE2 PLOT OF

31、THE FIRST TWO PRINCIPAL COMPONENTS;lPROCPROC GPLOTGPLOT;l PLOT PRIN3*PRIN1=STATE;l TITLE2 PLOT OF THE FIRST AND THIRD PRINCIPAL COMPONENTS;lRUNRUN;现在学习的是第17页，共37页Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative PRIN1 4.11496 2.87624 0.587851 0.58785 PRIN2 1.23872 0.5

32、1291 0.176960 0.76481 PRIN3 0.72582 0.40938 0.103688 0.86850 PRIN4 0.31643 0.05846 0.045205 0.91370 PRIN5 0.25797 0.03593 0.036853 0.95056 PRIN6 0.22204 0.09798 0.031720 0.98228 PRIN7 0.12406 .0.017722 1.00000 Eigenvectors PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 PRIN6 PRIN7 MURDER 0.300279 -.629174 0.178245 -

33、.232114 0.538123 0.259117 0.267593 RAPE 0.431759 -.169435 -.244198 0.062216 0.188471 -.773271 -.296485 ROBBERY 0.396875 0.042247 0.495861 -.557989 -.519977 -.114385 -.003903 ASSAULT 0.396652 -.343528 -.069510 0.629804 -.506651 0.172363 0.191745 BURGLARY 0.440157 0.203341 -.209895 -.057555 0.101033 0

34、.535987 -.648117 LARCENY 0.357360 0.402319 -.539231 -.234890 0.030099 0.039406 0.601690 AUTO 0.295177 0.502421 0.568384 0.419238 0.369753 -.057298 0.147046 现在学习的是第18页，共37页第一主分量贡献率只有第一主分量贡献率只有59%59%，前两个主分量累计贡献率达到，前两个主分量累计贡献率达到76%76%，可，可以用前两个主分量。前三个主分量累计贡献率已达到以用前两个主分量。前三个主分量累计贡献率已达到87%87%，所以前，所以前三个主分量

35、可以表现犯罪率的大部分信息。第一主分量的计算系数都三个主分量可以表现犯罪率的大部分信息。第一主分量的计算系数都是正数，所以它是一个州的犯罪率的一个加权平均，代表这个州的总是正数，所以它是一个州的犯罪率的一个加权平均，代表这个州的总的犯罪情况。第二主分量在入室盗窃（的犯罪情况。第二主分量在入室盗窃（BURGLARYBURGLARY）、盗窃罪）、盗窃罪（LARCENYLARCENY）、汽车犯罪（）、汽车犯罪（AUTOAUTO）上有较大的正系数，在谋杀）上有较大的正系数，在谋杀（MURDERMURDER）、强奸（）、强奸（RAPERAPE）、攻击（）、攻击（ASSAULTASSAULT）上有较大的负

36、系数，）上有较大的负系数，所以代表了暴力犯罪与其它犯罪的一种对比。第三主分量为抢劫、所以代表了暴力犯罪与其它犯罪的一种对比。第三主分量为抢劫、汽车犯罪等与盗窃罪、入室盗窃、强奸的对比，其意义不易解释。汽车犯罪等与盗窃罪、入室盗窃、强奸的对比，其意义不易解释。现在学习的是第19页，共37页为了看出各州按第一主分量和第二主分量由低到高排列的情况，先用为了看出各州按第一主分量和第二主分量由低到高排列的情况，先用SORTSORT过程排了序，然后用过程排了序，然后用PRINTPRINT过程打印了结果（结果略）。在按第过程打印了结果（结果略）。在按第一主分量排序中，一主分量排序中，North Dakota

37、North Dakota、South DakotaSouth Dakota、West VirginiaWest Virginia排排列在前，说明其犯罪率最低，列在前，说明其犯罪率最低，NevadaNevada、CaliforniaCalifornia排列在后，说明排列在后，说明其犯罪率最高。在按第二主分量排列的结果中，其犯罪率最高。在按第二主分量排列的结果中，MississippiMississippi排在最排在最前，说明其暴力犯罪最高，前，说明其暴力犯罪最高，MassachusettsMassachusetts最后，说明其暴力犯罪最低。最后，说明其暴力犯罪最低。后面用后面用PLOTPLOT过

38、程画了主成分的散点图。过程画了主成分的散点图。现在学习的是第20页，共37页四、用四、用SAS/INSIGHTSAS/INSIGHT进行主分量分析进行主分量分析在在SAS/INSIGHTSAS/INSIGHT中可进行主分量分析。例如，对于上面的中可进行主分量分析。例如，对于上面的WORK.CRIMEWORK.CRIME数据集，在数据集，在INSIGHTINSIGHT中打开它后，选中打开它后，选“Analyze|Analyze|Multivariate(Ys)Multivariate(Ys)”，弹出选择变量的对话框，把各犯罪率变量都选，弹出选择变量的对话框，把各犯罪率变量都选为为Y Y变量，然

39、后按变量，然后按OutputOutput按钮，选中主分量分析（按钮，选中主分量分析（Principal Component Principal Component AnalysisAnalysis）复选框，）复选框，OKOK后就得到了多变量分析结果（包括原始变量的简单统后就得到了多变量分析结果（包括原始变量的简单统计量、相关阵）和主分量分析的结果（特征值、累计贡献率、特征向量）。计量、相关阵）和主分量分析的结果（特征值、累计贡献率、特征向量）。另外还画了前两个主分量的散点图。另外还画了前两个主分量的散点图。现在学习的是第21页，共37页应用组成分分析的论文讨论应用组成分分析的论文讨论1.1.

40、The Effect of Financial Ratios on Returns from Initial The Effect of Financial Ratios on Returns from Initial Public Offerings:An Application of Principal Components Public Offerings:An Application of Principal Components AnalysisAnalysis2.Conceptual Perspectives on Selecting the Principal Variables

41、 2.Conceptual Perspectives on Selecting the Principal Variables in the Purchasing managerin the Purchasing managers indexs index现在学习的是第22页，共37页因子分析因子分析现在学习的是第23页，共37页现在学习的是第24页，共37页lSAS/STATSAS/STAT的的FACTORFACTOR过程可以进行因子分析、分量分析和因子旋过程可以进行因子分析、分量分析和因子旋转。对因子模型可以使用正交旋转和斜交旋转，可以用回归法计算得转。对因子模型可以使用正交旋转和斜交旋转

42、，可以用回归法计算得分系数，同时把因子得分的估计存贮在输出数据集中；用分系数，同时把因子得分的估计存贮在输出数据集中；用FACTORFACTOR过程过程计算的所有主要统计量也能存贮在输出数据集中。计算的所有主要统计量也能存贮在输出数据集中。l二、二、FACTORFACTOR过程使用过程使用现在学习的是第25页，共37页lFACTORFACTOR过程用法很简单，主要使用如下语句：过程用法很简单，主要使用如下语句：l PROC FACTOR DATA=PROC FACTOR DATA=数据集数据集选项选项;l VAR VAR 原始变量原始变量;lRUN;RUN;l输出结果包括特征值情况、因子载荷

43、、公因子解释比例，等等。为了计算因子得输出结果包括特征值情况、因子载荷、公因子解释比例，等等。为了计算因子得分，一般在分，一般在PROC FACTORPROC FACTOR语句中加一个语句中加一个SCORESCORE选项和选项和“OUTSTAT=OUTSTAT=输出数据集输出数据集”选项，然后用如下的得分过程计算公因子得分：选项，然后用如下的得分过程计算公因子得分：lPROC SCORE DATA=PROC SCORE DATA=原始数据集原始数据集 SCORE=FACTORSCORE=FACTOR过程的输出数据集过程的输出数据集 l OUT=OUT=得分输出数据集得分输出数据集;l VAR

44、VAR 用来计算得分的原始变量集合用来计算得分的原始变量集合;lRUN;RUN;现在学习的是第26页，共37页l三、例子三、例子l数据集数据集SOCECON为洛杉基12个地区统计的五个社会经济指标：人口总数（POP），教育程度（SCHOOL），就业数（EMPLOY），服务业人数（SERVICES），中等的房价（HOUSE）。用FACTOR过程可以进行主分量分析。下例中的SIMPLE选项要求计算变量的简单统计量，CORR 要求输出相关阵。现在学习的是第27页，共37页DATA SOCECON;TITLE 五个经济指标的分析;l INPUT POP SCHOOL EMPLOY SERVICES H

45、OUSE;l CARDS;l5700 12.8 2500 270 25000l1000 10.9 600 10 10000l3400 8.8 1000 10 9000l3800 13.6 1700 140 25000l4000 12.8 1600 140 25000l8200 8.3 2600 60 12000l1200 11.4 400 10 16000l9100 11.5 3300 60 14000l9900 12.5 3400 180 18000l9600 13.7 3600 390 25000l9600 9.6 3300 80 12000l9400 11.4 4000 100 1300

46、0l;lPROCPROC FACTORFACTOR DATA=SOCECON SIMPLE CORR;TITLE2 主分量分析;RUN;现在学习的是第28页，共37页 1 2 3 4 5 1 2 3 4 5 Eigenvalue 2.8733 1.7967 0.2148 0.0999 0.0153 Eigenvalue 2.8733 1.7967 0.2148 0.0999 0.0153 Difference 1.0767 1.5818 0.1149 0.0847 Difference 1.0767 1.5818 0.1149 0.0847 Proportion 0.5747 0.3593 0

47、.0430 0.0200 0.0031 Proportion 0.5747 0.3593 0.0430 0.0200 0.0031 Cumulative 0.5747 0.9340 0.9770 0.9969 1.0000 Cumulative 0.5747 0.9340 0.9770 0.9969 1.0000 l结果给出了五个变量的简单统计量，相关阵，和相关阵的特征值、结果给出了五个变量的简单统计量，相关阵，和相关阵的特征值、累计贡献：累计贡献：2 factors will be retained by the MINEIGEN criterion.现在学习的是第29页，共37页l前两个主

48、分量解释了前两个主分量解释了93.4%93.4%的方差，按照缺省的选择因子个数的的方差，按照缺省的选择因子个数的准则准则MINEIGENMINEIGEN，取大于，取大于1 1的特征值，所以取两个因子。因子模式阵的特征值，所以取两个因子。因子模式阵（factor patternfactor pattern，或称因子载荷阵）为最重要的结果之一：，或称因子载荷阵）为最重要的结果之一：l Factor Pattern Factor Patternl FACTOR1 FACTOR2 FACTOR1 FACTOR2 lPOP 0.58096 0.80642POP 0.58096 0.80642lSCHOO

49、L 0.76704 -0.54476SCHOOL 0.76704 -0.54476lEMPLOY 0.67243 0.72605EMPLOY 0.67243 0.72605lSERVICES 0.93239 -0.10431SERVICES 0.93239 -0.10431lHOUSE 0.79116 -0.55818 HOUSE 0.79116 -0.55818 现在学习的是第30页，共37页l它们是用公因子预报原始变量的回归系数。第一主分量（因子）它们是用公因子预报原始变量的回归系数。第一主分量（因子）在所有五个变量上都有正的载荷，可见这个因子反应了城市规模在所有五个变量上都有正的载荷，可

50、见这个因子反应了城市规模的影响。第二主分量在人口、就业上有大的正载荷，在教育程度的影响。第二主分量在人口、就业上有大的正载荷，在教育程度和住房价格上有大的负载荷，则第二个因子较大的城市人口多但和住房价格上有大的负载荷，则第二个因子较大的城市人口多但是教育程度和住房价格低。结果还给出了公因子解释能力的估计：是教育程度和住房价格低。结果还给出了公因子解释能力的估计：lFinal Communality Estimates:Total=4.669974 POP Final Communality Estimates:Total=4.669974 POP SCHOOL EMPLOY SERVICES

展开阅读全文