主成分分析ppt课件.pptx

上传人:飞****2 文档编号:29426099 上传时间:2022-07-31 格式:PPTX 页数:66 大小:892.43KB
返回 下载 相关 举报
主成分分析ppt课件.pptx_第1页
第1页 / 共66页
主成分分析ppt课件.pptx_第2页
第2页 / 共66页
点击查看更多>>
资源描述

《主成分分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《主成分分析ppt课件.pptx(66页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、主成分分析 11.1 11.1 什么是主成分分析及其基本思想问题的提出: 在对某一事物进行实证分析研究中,为了更全面准确反映出事物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会产生的问题: (1)为避免漏掉重要信息而考虑尽量多的指标 (2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会掩盖事物的真正特征与内在规律。 目的:涉及的变量(指标)少,得到的信息量要较多。11.1 11.1 什么是主成分分析及其基本思想 主成分分析(Principal Component Analysis,PCA)也称为主分量分析,是一种数据降维

2、技术,主成分分析正是研究如何将多个具有较强相关性指标化为少数几个综合指标来解释原来变量绝大多数信息的一种多元统计方法。把转化生成的综合指标称之为主成分。 11.1 11.1 什么是主成分分析及其基本思想 例1:某厂商要做一件上衣,需要测量很多尺寸,如 身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标 将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标:一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题: 1. 各指标量

3、纲不同,不能直接相加; 2. 各指标间存在相关,直接相加产生信息重叠; 3.相加时需要考虑各指标的权重。 主成分分析的基本思想: 设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。11.1 11.1 什么是主成分分析及其基本思想注: u 通常数学上的处理:新的综合指标是原来p个指标的线性组合。u 指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信息越多。 因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将方差次大的F2作为第二主成分,且要求C

4、ov(F1,)=0,保证F1中的信息不出现在F2中,以此类推,构造第三、第四,第p主成分。 11.1 11.1 什么是主成分分析及其基本思想11.1 11.1 什么是主成分分析及其基本思想 实际工作中,挑选前几个最大的主成分代替原来的指标信息,虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。原始指标的线性组合综合指标间不相关,且方差递减第一主成分,第二主成分,第p主成分选取前几个最大的主成分代替原来指标的信息尽可能多地找出相关指标作为原始指标主成分分析流程图:11.2 11.2 主成分分析数学

5、模型及几何解释111111211111212122121211211X(,)P,F=F =F =TppppppppppXXxa Xa Xa Xa Xa Xa XaXa Xa XaXa Xa X设是P维随机向量,均值E(X)= ,协差阵D(X)= ,用X的P个向量,(即 个指标向量)x作线性组合(即综合指标)为:上述方程组要求:11.2 11.2 主成分分析数学模型及几何解释22212j11211p111(1)11,(2)F(, , , 1,)(3),FF,FFF,iipiijippppaaaipaFij i jpFXXX且系数 由下列原则决定:与不相关;是X的一切线性组合(系数满足上述方程组)

6、中方差最大的, 是与 不相关的X一切线性组合中方差最大的, ,是与 ,都不相关的X一切线性组合中方差最大的.11.2 11.2 主成分分析数学模型及几何解释用数学语言描述就是要求:1,(,) 0(1)1(1, )(2)1(,)0(1,1)(3)()max()(1,1)ijiiijia aCov F Fa aipiCov F FjiVar FVarxji当时,11.2 11.2 主成分分析数学模型及几何解释注:(1)数学模型中用线性组合基于两种原因:数学上容易处理和在实践中效果好。(2)每次主成分的选取使Var(Fi)最大,如果不加限制就可使Var(Fi)趋于无穷大,就没有意义了,常用的限制要求

7、就是:2221211,iipiaaaip1F2F主成分分析的几何解释平移、旋转坐标轴 如果我们将xl 轴和x2轴先平移,再同时按逆时针方向旋转角度,得到新坐标轴Fl和F2。Fl和F2是两个新变量。 根据旋转变换的公式:112212FcossinFsincosxxxx 1122FcossinFsincosxx 旋转变换的目的是为了使得n个样品点在Fl轴方向上的离 散程度最大,即Fl的方差最大。变量Fl代表了原始数据的绝大 部分信息,在研究某问题时,即使不考虑变量F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到Fl轴上,对数据中包含的信息起到了浓缩作用。11.3 总体主成分的推导及性质(

8、1)主成分的推导:求主成分就是寻找X的线性函数 使相应的方差尽可能地大,即使11221212,( , , , ),( ,),ppppF aX aXa XaXaa aaXX XX设其 中 ,aX ()()()()()1Var a XE a XE a Xa XE a Xa E XEXXEX aaaa a 达到最大值,且。11.3 总体主成分的推导及性质12p1211121212221121210,U(,)=UpppppppppppiiiipU 设协差阵的特征根为相应的单位特征向量为, ,。令,由对角化定理可知:11.3 总体主成分的推导及性质2111211111112111111111111()(

9、)()() =()()()()pppiiiiiiiiiiipiippiiiiiiiiaaau aaaaaaaa Ua Ua U U aa aauuuuuuuu u 因 此 ,所 以 ,而 且 , 当时 , 有11.3 总体主成分的推导及性质11111ii11()(),()()()0,iiipjijijpijaaaaVarXVarXXXij 因此,使Var(X)=达到最大值,且同理,而且,Cov()=11.3 总体主成分的推导及性质上述推导表明: X1,X2,Xp的主成分就是以的特征向量为系数的线性组合,它们互不相关,其方差为的特征根。 主成分的名词是按照特征根取值大小的顺序排列的。 在解决实际

10、问题时,一般不是取p个主成分,而是根据累计贡献率的大小取前K个。11.3 总体主成分的推导及性质定义: 称第一主成分的贡献率为 ,由于 ,所以, 因此,第一主成分的贡献率及时第一主成分方差在全部方差中的比值,这个比值越大,表明第一主成分综合X1,X2,Xp信息的能力越强。11pii11()Var F111i1()=()pipiiVar FVar F11.3 总体主成分的推导及性质 前K个主成分的贡献率(累计贡献率)定义为: 如果前k个主成分的贡献率达到85%,表明取前k个主成分基本包含了全部测量指标所具有的信息,这样既减少了变量的个数又便于对实际问题的分析和研究。11pkiiii11.3 总体

11、主成分的推导及性质(2)主成分性质性质1性质2 1F( ),=pD F的协差阵为对角阵 ,即其中11ppiiiii11.3 总体主成分的推导及性质性质3(,), ,1,ikkkikiiiuFXi kpF并 把 主 成 分与 变 量 x 的 相 关系 数 称 为 因 子 负 荷 量 ( 或 因 子 载 荷 量 ) 。11.3 总体主成分的推导及性质性质42211(,)1 (1,2,)ppkikkikkiiF Xip 11.3 总体主成分的推导及性质性质5 此性质说明:上表中Fk对应的每一列关于各变量相关系数的加权平方和为k即Var(Fk)。21(,)(1,)piikikiFXkp 11.3 总体

12、主成分的推导及性质11.4 有关问题的讨论(一)从协差阵出发还是从相关阵出发求主成分 从协差阵出发求原始数据的协差阵的特征值特征向量的过程。 从相关阵出发求原始数据的相关阵(标准化数据的协差阵)的特征 值特征向量的过程。 从协差阵出发和从相关阵出发所求得的主成分一般来说是有差别的,而且这种差别有时候还很大。11.4 有关问题的讨论 对于度量单位不同的指标或是取值范围彼此差异非常大的指标,一般不直接由其协差阵出发而应该考虑将数据标准化。 原始数据标准化处理后倾向于各个指标的作用在主成分的构成中相等。数据标准化的过程实际上就是抹杀原始变量离散程度差异的过程,标准化后各变量方差相等均等于1,而实际上

13、方差也是对数据信息的重要概括形式,即对原始数据进行标准化后抹杀了一部分重要信息,因此才使得标准化后各变量在对主成分构成中的作用趋于相等。 11.4 有关问题的讨论 因此从相关阵出发求主成分有其不足之处,实际问题中不可盲目将数据标准化处理,可分别从协差阵和相关阵出发进行求解并研究其结果的差别,看是否有显著差异并分析产生差异的原因,以确定用哪种结果更为可信。11.4 有关问题的讨论(二)主成分分析不要求数据来自正态总体 与很多多元统计分析方法不同,主成分分析不要求数据来自于正态总体,主成分分析实际上就是对矩阵结构的分析,主要用到矩阵运算及矩阵对角化技术。11.4 有关问题的讨论(三)主成分分析与重

14、叠信息 主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,运用主成分分析后不能起到很好的降维作用,即所得的各个主成分浓缩原始变量信息的能力差别不大。一般当原始数据大部分变量的相关系数都小于0.3时,运用主成分分析不会取得很好的效果。 11.4 有关问题的讨论 主成分分析对重叠信息的剔除是无能为力的。在实际选取初始变量进入分析时,对原始变量存在多重共线性的问题,应用主成分分析方法时要慎重。要考虑选取的初始变量是否合适,如果出于避免漏掉某些信息而特意选取了过多存在重叠信息的变量时,就要注意应用主成分分析得到的结果。 如果所得样本协差阵的最小特征值接近于0,就意味着原始变量之间存

15、在着多重共线性,即原始变量存在着不可忽视的重叠信息。11.5 由样本数据求主成分例1. 测得10名幼儿的身高,体重如下表,求主成分。对象号x1 体重(kg)x2 身高(cm)116.3108213.0 88318.3111415.0 95511.9 88614.4 95713.5 94812.1 88913.3 931013.5 95均数 14.13 95.5标准差 1.965847 7.9895771.求相关系数矩阵Rr11=r22=1, r12=r21=0.954719547. 09547. 01R 2.求R的特征根,解方程:019547. 09547. 01 即(1-)*(1-)-0.9

16、547*0.9547=0 得两个根 1.9547和0.0453,记为: 1=1.9547,2=0.04533.求特征向量Li1=1.9547所对应的特征向量用下式解: l11+0.9547l12=1.9547l11 0.9547l11+l12=1.9547l12 l112+l122=1 得l11=0.7071, l12=0.7071, 第一主成分为:C1=0.7071X 1+0.7071X2 同样的方法,用2=0.0453可计算出第二主成分,此处略。11.5 由样本数据求主成分 设样本观测矩阵为Xn*p,样本主成分计算步骤: 1.将原始数据标准化(可选) 2.求原始数据的协差阵或相关阵R 3.

17、求(或R)的特征根和特征向量 4写出主成分 11.5 由样本数据求主成分练习:1221(,)=12TXXXX设随机向量的协差阵为:,试求 的特征根和特征向量,并写出主成分。41特征值特征值标准正交特征向标准正交特征向量量是否有接近是否有接近0的情况的情况是是其他处理其他处理否否主成分主成分对主成分进行分析对主成分进行分析深入分析深入分析选择初始变量选择初始变量 度量或取值度量或取值范围相同?范围相同?是是否否(否)(否)对比对比分析相关阵分析相关阵分析协方差分析协方差阵阵 主成分分析主成分分析的逻辑框图见的逻辑框图见 图图5-3:【例例5.25.2】 数据集数据集Employee dataEm

18、ployee data为为MidwesternMidwestern银行在银行在1969-1969-19711971年之间雇员情况的数据,共包括年之间雇员情况的数据,共包括474474条观测及如下条观测及如下1010个变个变量:量:IdId(观测号)、(观测号)、GenderGender(性别)、(性别)、BdateBdate(出生日期)、(出生日期)、EducEduc(受教育程度(年数)、(受教育程度(年数)、JobcatJobcat(工作种类)、(工作种类)、SalarySalary(目前年薪)、(目前年薪)、SalbeginSalbegin(开始受聘时的年薪)、(开始受聘时的年薪)、Job

19、timeJobtime(受雇时间(月)、(受雇时间(月)、PrevexpPrevexp(受雇以前的工作时间(受雇以前的工作时间(月)、(月)、MinorityMinority(是否少数民族)。下面我们用主成分分(是否少数民族)。下面我们用主成分分析方法处理该数据,以期用少数变量来描述该地区居民的雇佣析方法处理该数据,以期用少数变量来描述该地区居民的雇佣情况。情况。2022-7-31中国人民大学六西格玛质量管理研究中心42 目录 上页 下页 返回 结束 11.611.6主成分分析的上机实现主成分分析的上机实现 SPSS SPSS软件软件FACTORFACTOR模块提供了主成分分析的功能。下面先以

20、模块提供了主成分分析的功能。下面先以SPSSSPSS软件包自带的数据软件包自带的数据Employee Employee data.savdata.sav为例介绍主成分分为例介绍主成分分析的上机实现方法,在析的上机实现方法,在SPSSSPSS软件的安装目录下可以找到该数软件的安装目录下可以找到该数据集;然后,我们举一个实际的例子介绍主成分分析的具体据集;然后,我们举一个实际的例子介绍主成分分析的具体应用。应用。2022-7-3111.611.6主成分分析的上机实现主成分分析的上机实现 进入进入SPSSSPSS软件,打开数据集软件,打开数据集Employee Employee data.savda

21、ta.sav。依次点。依次点选选AnalyzeDataAnalyzeData ReductionFactorReductionFactor.进入进入Factor Factor AnalysisAnalysis(因子分析)对话框。(在(因子分析)对话框。(在SPSSSPSS软件中,主成分分软件中,主成分分析与因子分析均在析与因子分析均在Factor AnalysisFactor Analysis模块中完成。此时,数模块中完成。此时,数据集据集Employee Employee data.savdata.sav中的变量名均已显示在左边的窗口中的变量名均已显示在左边的窗口中,依次选中变量中,依次选中

22、变量educeduc、salarysalary、salbeginsalbegin、jobtimejobtime、prevexpprevexp并点向右的箭头按钮,这五个变量便进入并点向右的箭头按钮,这五个变量便进入variablesvariables窗口(此时若选中窗口(此时若选中variablesvariables窗口中的变量,则窗口左侧的窗口中的变量,则窗口左侧的箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点箭头按钮即转向左侧,点此按钮即可剔除所选中变量)。点击右侧的击右侧的OKOK按钮,即可得到如下输出结果按钮,即可得到如下输出结果5-15-1。11.611.6主成分分析的上机实现主

23、成分分析的上机实现 C Co om mm mu un na al li it ti ie es s1.000.7541.000.8961.000.9161.000.9991.000.968Educational Level(years)Current SalaryBeginning SalaryMonths since HirePrevious Experience(months)InitialExtractionExtraction Method: Principal Component Analysis.输出结果输出结果1111-1-1(1 1)CommunalitiesCommunali

24、ties给出给出了该次分析从每个原了该次分析从每个原始变量中提取的信息,始变量中提取的信息,表格下面的注示表明,表格下面的注示表明,该次分析是用该次分析是用Factor Factor analysisanalysis模块默认的模块默认的信息提取方法即主成信息提取方法即主成分分析完成的。可以分分析完成的。可以看到除受教育程度信看到除受教育程度信息损失较大外,主成息损失较大外,主成分几乎包含了各个原分几乎包含了各个原始变量至少始变量至少90%90%的信的信息。息。输出结果输出结果1111-1-1(2 2)T To ot ta al l V Va ar ri ia an nc ce e E Ex x

25、p pl la ai in ne ed d2.47749.54149.5412.47749.54149.5411.05221.04670.5871.05221.04670.5871.00320.07090.6561.00320.07090.656.3657.29997.955.1022.045100.000Component12345Total% of VarianceCumulative %Total% of VarianceCumulative %Initial EigenvaluesExtraction Sums of Squared LoadingsExtraction Method:

26、 Principal Component Analysis.Total Variance ExplainedTotal Variance Explained表则显示了各主成分解释原始变量总方差表则显示了各主成分解释原始变量总方差的情况,的情况,SPSSSPSS默认保留特征根大于默认保留特征根大于1 1的主成分,在本例中看到当保留的主成分,在本例中看到当保留3 3个主成分为宜,这个主成分为宜,这3 3个主成分集中了原始个主成分集中了原始5 5个变量信息的个变量信息的90.66%90.66%,可见,可见效果是比较好的。效果是比较好的。输出结果输出结果1111-1-1(3 3)SPSSSPSS默认是

27、从相关阵出发求解主成分,且默认保留特征根大于默认是从相关阵出发求解主成分,且默认保留特征根大于1 1的主成分,实的主成分,实际上,对主成分的个数我们可以自己确定际上,对主成分的个数我们可以自己确定 【例例1111.2.2】在企业经济效益的评价中,设计的指在企业经济效益的评价中,设计的指标往往很多。为了简化系统结构,抓住经济效益标往往很多。为了简化系统结构,抓住经济效益评价中的主要问题,我们可由原始数据矩阵出发评价中的主要问题,我们可由原始数据矩阵出发求主成分。在对我国部分省、市、自治区独立核求主成分。在对我国部分省、市、自治区独立核算的工业企业的经济效益评价中,涉及到算的工业企业的经济效益评价

28、中,涉及到9 9项指标,项指标,原始数据见表原始数据见表1111-7-7,即样品数,即样品数n=28n=28,变量数,变量数p=9p=9。 100固定资产固定资产原值实现值原值实现值(%)100元固定元固定资产原值资产原值实现利税实现利税(%)100元元资金实资金实现利税现利税(%)100元工业元工业总产值实总产值实现利税(现利税(%)100元销售收元销售收入实现利税入实现利税(%)每吨标准煤每吨标准煤实现工业产实现工业产值(元)值(元)每千瓦时电每千瓦时电力实现工业力实现工业产值(元)产值(元)全员劳动生全员劳动生产率(元产率(元/人人.年)年)100元流动元流动资金实现产资金实现产值(元)

29、值(元)北京(北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(河北(3)94.817.217.9518.149.3711672.0312607322.2山西(山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(辽宁(6)94.5121.1222.8322.3511.2814162.3613.38631

30、1.7吉林(吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(安徽(12)110.7820.720.1218.696.614682.231257

31、8341.1福建(福建(13)122.7622.5219.9318.348.3522002.6312164301.2表表1111-7-7100固定资产固定资产原值实现值原值实现值(%)100元固定元固定资产原值资产原值实现利税实现利税(%)100元元资金实资金实现利税现利税(%)100元工业元工业总产值实总产值实现利税(现利税(%)100元销售收元销售收入实现利税入实现利税(%)每吨标准煤每吨标准煤实现工业产实现工业产值(元)值(元)每千瓦时电每千瓦时电力实现工业力实现工业产值(元)产值(元)全员劳动生全员劳动生产率(元产率(元/人人.年)年)100元流动元流动资金实现产资金实现产值(元)值(

32、元)北京(北京(1)119.2930.9829.9225.9715.4821783.4121006296.7天津(天津(2)143.9831.5930.2121.9412.2928524.2920254363.1河北(河北(3)94.817.217.9518.149.3711672.0312607322.2山西(山西(4)65.811.0811.0612.1516.848.821.6510166284.7内蒙(内蒙(5)54.799.249.5416.866.278941.87564225.4辽宁(辽宁(6)94.5121.1222.8322.3511.2814162.3613.386311.

33、7吉林(吉林(7)80.4913.3613.7616.67.1413062.079400274.1黑龙江(黑龙江(8)75.8615.8216.6720.8610.3712672.269830267上海(上海(9)187.7945.939.7724.4415.0943464.1131246418.6江苏(江苏(10)205.9627.6522.5813.427.8132024.6923377407.2浙江(浙江(11)207.4633.0625.7815.949.2838114.1922054385.5安徽(安徽(12)110.7820.720.1218.696.614682.23125783

34、41.1福建(福建(13)122.7622.5219.9318.348.3522002.6312164301.2 江西(江西(14)94.9414.714.1815.496.6916692.2410463274.4山东(山东(15)117.5821.9320.8918.659.118202.817829331.1河南(河南(16)85.9817.317.1820.127.6713061.8911247276.5湖北(湖北(17)103.9619.518.4818.779.1618292.7515745308.9湖南(湖南(18)104.0321.4721.2820.638.7212721.98

35、13161309广东(广东(19)136.4423.6420.8317.337.8529593.7116259334广西(广西(20)100.7222.0420.921.889.6717322.1312441296.4四川(四川(21)84.7314.3514.1716.937.9613102.3411703242.5贵州(贵州(22)59.0514.4814.3524.538.0910681.329710206.7云南(云南(23)73.7221.9122.729.729.3814471.9412517295.8陕西(陕西(24)78.0213.1312.5716.839.1917312.0

36、811369220.3甘肃(甘肃(25)59.6214.0716.2423.5911.349261.1313084246.8青海(青海(26)51.668.328.2616.117.0510551.319246176.49宁夏(宁夏(27)52.958.258.8215.576.588341.1210406245.4新疆(新疆(28)60.2911.2613.1418.688.3910412.910983266续表续表5-75-7 0.4235231.3384051.5902821.6875562.2396340.4819710.9547461.2603710.0488050.9951991.

37、4096491.6314530.6672281.0658731.1887581.8553941.1338441.200166-0.14352-0.271-0.10906-0.29487-0.00854-0.57821-0.45763-0.152790.49097-0.81499-0.98577-1.08721-1.811432.740046-1.79273-0.84655-0.56349-0.15927-1.06992-1.20067-1.303-0.61894-1.14919-0.86449-0.69303-1.00129-1.18752-0.150240.1868270.5837370.7

38、710330.694243-0.3171-0.11989-2.27170.308902-0.47486-0.71949-0.7039-0.68477-0.82907-0.43245-0.4167-0.69238-0.34307-0.58206-0.43218-0.290780.393790.359408-0.47334-0.22224-0.62003-0.466192.0095833.0809562.9886561.3001862.0961332.7554331.6711712.9832842.1625242.4302940.9494850.548246-1.48989-0.582541.55

39、57832.264781.6592991.9648512.4650251.5813351.002539-0.85187-0.041662.1944081.7530481.43671.5885780.2264810.1377740.199007-0.15562-1.02776-0.26257-0.25294-0.157670.8186910.5038680.3503370.172033-0.24423-0.383850.5050410.156444-0.227320.126834-0.14028-0.56298-0.64428-0.9658-0.99465-0.05179-0.24271-0.5

40、1352-0.337870.3839290.2814290.308322-0.16574-0.107890.1065570.3304330.725830.645294表表5-85-8首先标准化原始数据,标准化后的数据见表5-8。5.75.7主成分分析的上机实现主成分分析的上机实现 -0.34774-0.25932-0.218380.206435-0.63406-0.43245-0.60092-0.38161-0.301460.068569-0.00238-0.03382-0.13536-0.085810.1159940.279260.375190.2603510.070190.2277050.

41、3636890.335558-0.24771-0.4681-0.50881-0.059580.2620850.8206170.4811450.299804-0.49995-0.567831.3009631.2617850.4616730.695579-0.006450.2942770.3097410.6520370.1018430.014276-0.35529-0.180720.043603-0.37669-0.60386-0.6457-0.60122-0.52735-0.42825-0.14036-0.30489-0.89101-0.97128-0.58868-0.620141.322972

42、-0.47952-0.68202-1.18429-0.64022-1.51177-0.631610.2790930.5652822.636993-0.00486-0.28459-0.54975-0.167930.033199-0.53205-0.74635-0.87284-0.62654-0.074770.013227-0.40646-0.36109-1.27595-0.95809-0.63656-0.351821.084980.71632-0.83093-1.37875-0.07253-0.81645-1.14239-1.30812-1.48472-0.80883-0.86219-0.695

43、66-1.19453-0.71829-2.03561-1.11252-1.3163-1.40522-0.94555-1.03512-0.92741-1.38899-0.52311-0.84073-0.94257-0.96475-0.79192-0.15815-0.36913-0.710340.432779-0.42603-0.48353续表续表5-85-8 将表将表5-8数据导入数据导入spss软件,依次点选软件,依次点选Analyze-Data Reduction-Factor进入进入Factor Analysis对话框。(在对话框。(在spss中,主成分分析与中,主成分分析与因子分析均在因

44、子分析均在Factor Analysis模块中完成。)如图模块中完成。)如图5-4所示:所示:5.75.7主成分分析的上机实现主成分分析的上机实现 此时,数据集此时,数据集5-5.sav中的变量名均显示在对话框左边的窗口中的变量名均显示在对话框左边的窗口中,选择变量中,选择变量x1,x2,x3,x4,x5,x6,x7,x8,x9进入进入variables窗口中,操作如图窗口中,操作如图5-5所示:所示:图图5-55-5 图图5-5点击点击descriptives按钮,在弹出的对话框中,在按钮,在弹出的对话框中,在correlation matrix中选择中选择coefficients 。回到原

45、对话框点击右侧的。回到原对话框点击右侧的Ok,即可得到输出结果即可得到输出结果5-4 和输出结果和输出结果5-5。 输出结果输出结果5-45-4 输出结果输出结果5-55-5由输出结果由输出结果5-45-4看到,前面看到,前面2 2个主成分个主成分 、 的方差和占全部方差的的方差和占全部方差的比例为比例为84.7%84.7%。我们就选取。我们就选取 为第一主成分,为第二主成分,且这为第一主成分,为第二主成分,且这两个主成分之方差和占全部方差的两个主成分之方差和占全部方差的84.7%84.7%,即基本上保留了原来指,即基本上保留了原来指标的信息,这样由原来的标的信息,这样由原来的9 9个指标转化

46、为个指标转化为2 2个新指标,起到了降维个新指标,起到了降维的作用。的作用。 SPSS软件得到软件得到因子载荷矩阵因子载荷矩阵如下图如下图: 对对SPSS的因子分析模块运行结果的因子分析模块运行结果输出的输出的Component Matrix的第的第 列的列的每个元素分别除以第每个元素分别除以第 个特征根的平方个特征根的平方根根 就得到主成分分析的第就得到主成分分析的第 个主成分个主成分的系数。结果如下表:的系数。结果如下表:iiii主成分1主成分2x10.3755586-0.25951x20.39339580.134374x30.37525560.265294x40.09353430.711

47、329x50.1745590.491327x60.3721494-0.16496x70.3616165-0.2254x80.3513161-0.05236x90.3625942-0.12675 (11.13) 其中, 表示对原始变量标准化后的表示对原始变量标准化后的变量。变量。*112340.37555860.39339580.37525560.0935343yxxxx*567890.1745590.37214940.36161650.35131610.3625942xxxxx*21234-0.259510.1343740.2652940.711329yxxxx*567890.491327-0

48、.16496-0.2254-0.05236-0.12675xxxxx*123456789,xxxxxxxxx由上表得到前由上表得到前2 2个主成分,个主成分, , 的线性组合为:的线性组合为: *112340.37555860.39339580.37525560.0935343yxxxx*567890.1745590.37214940.36161650.35131610.3625942xxxxx*21234-0.259510.1343740.2652940.711329yxxxx*567890.491327-0.16496-0.2254-0.05236-0.12675xxxxx*1234567

49、89,xxxxxxxxx由上表得到前由上表得到前2 2个主成分,个主成分, , 的线性组合为:的线性组合为: *112340.37555860.39339580.37525560.0935343yxxxx*567890.1745590.37214940.36161650.35131610.3625942xxxxx*21234-0.259510.1343740.2652940.711329yxxxx*567890.491327-0.16496-0.2254-0.05236-0.12675xxxxx*123456789,xxxxxxxxx其中, 表示对表示对原始变量标准化后的变量。原始变量标准化后

50、的变量。由上表得到前2个主成分, , 的线性组合为: *112340.37555860.39339580.37525560.0935343yxxxx*567890.1745590.37214940.36161650.35131610.3625942xxxxx*21234-0.259510.1343740.2652940.711329yxxxx*567890.491327-0.16496-0.2254-0.05236-0.12675xxxxx*123456789,xxxxxxxxx 对所选主成分作经济解释。主成分分析的关键在于能否给对所选主成分作经济解释。主成分分析的关键在于能否给主成分赋予新的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁