《应用统计学 第七章 主成分分析.ppt》由会员分享,可在线阅读,更多相关《应用统计学 第七章 主成分分析.ppt(69页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Ma Xin,North China Electric Power University第七章 主成分分析nPCA的基本思想n一般模型与算法nPCA的SPSS实现nPCA的应用principle component analysisMa Xin,North China Electric Power UniversityOrigins of PCAnPearson(1901)v首先引入nHotelling(1933)v发展成熟One of the most widely used multivariate techniques.一、PCA的基本思想主成分分析:一种通过降维技术把多指标化为少数几个
2、综合指标的主成分分析:一种通过降维技术把多指标化为少数几个综合指标的主成分分析:一种通过降维技术把多指标化为少数几个综合指标的主成分分析:一种通过降维技术把多指标化为少数几个综合指标的多元统计分析方法。综合指标通常表示为原指标的线性组合,且为多元统计分析方法。综合指标通常表示为原指标的线性组合,且为多元统计分析方法。综合指标通常表示为原指标的线性组合,且为多元统计分析方法。综合指标通常表示为原指标的线性组合,且为了使这些新指标所含的信息不重叠,要求各新指标之间互不相关了使这些新指标所含的信息不重叠,要求各新指标之间互不相关了使这些新指标所含的信息不重叠,要求各新指标之间互不相关了使这些新指标所
3、含的信息不重叠,要求各新指标之间互不相关Ma Xin,North China Electric Power UniversityWhat does PCA do?Original data matrix,say n by pNew data matrix,say n by q,with q 2p,其相应的特征向量 1、2、p就是权重向量,权重向量与Xs相乘得到的向量z1=Xs 1、z2=Xs 2、zp=Xs p,就是Xs的主成分,且有:其中最大的特征根1对应的主成分z1称为第一主成分第一主成分,其方差最大,其次是第二主成分第二主成分z2、第三主成分第三主成分z3。有p个变量,就有p个主成分。注
4、意:注意:R是对称阵,是对称阵,两不同特征根对应的特征向量相互正交两不同特征根对应的特征向量相互正交。第第i i个主成分的方差就个主成分的方差就是相应的特征根。因为是相应的特征根。因为第一个特征根最大,所第一个特征根最大,所以第一主成分方差最大以第一主成分方差最大Ma Xin,North China Electric Power University由于各主成分彼此不相关,因此,所有主成分之和的方差等于所有特征根之和,即:所有主成分方差所有主成分方差所有主成分方差所有主成分方差之和解释了原始之和解释了原始之和解释了原始之和解释了原始数据全部方差数据全部方差数据全部方差数据全部方差正交阵主成分得
5、主成分得分矩阵分矩阵Ma Xin,North China Electric Power University特征根和特征向量的求法Ma Xin,North China Electric Power University例:三标准化变量x1、x2、x3,n=300z1z2z3注意:这里主成注意:这里主成成得分是非标准化的成得分是非标准化的特特征征向向量量主成分得分主成分得分Z=XsU数据Ma Xin,North China Electric Power University主成分分析:对原始数据阵进行正交旋转,使得第一主成分能主成分分析:对原始数据阵进行正交旋转,使得第一主成分能保留原始数据的最
6、大方差,第二主成分保留次大方差保留原始数据的最大方差,第二主成分保留次大方差,且,且主成分之间不相关,我们可以忽略方差贡献小的主成分从而达主成分之间不相关,我们可以忽略方差贡献小的主成分从而达到降维的目的。到降维的目的。:第i个主成分的方差贡献率方差贡献率第一主成分解释了第一主成分解释了最大部分的方差最大部分的方差:前k个主成分的累计贡献率累计贡献率方差贡献率累计贡献率保留一个主成分可解保留一个主成分可解释释68.3%的方差的方差保留两个主成分可解保留两个主成分可解释释92.3%的方差的方差Ma Xin,North China Electric Power UniversityConceptu
7、al Model主成分载荷阵标准化的主成分Z Z与原始数据阵X Xs s的相关系数矩阵,反映各主成分与原始变量x的相关程度,有助于解释各主成分的含义。变量共同度变量共同度:载荷阵第i行前c个元素的平方和,反映了前c个主成分对xi方差的解释程度从载荷阵可看出:z1与各x正相关,综合评价;z2与x2正相关,与x3负相关,反映样本在这两个指标方面的差距.72552+.66962=0.975:前两个主前两个主成分揭示了成分揭示了x2方差的方差的97.5%Ma Xin,North China Electric Power University三、PCA的SPSS实现nSPSS过程:v1)analyzed
8、ata reduction factor(顺序点击菜单项,打开Factor对话框)。v2)在对话框中指定分析变量,如图1所示。主成分分析用SPSS中的因子分析过程。Ma Xin,North China Electric Power University图13)在图1对话框点击Extraction按钮,出现图2对话框,选择主成分提取法。Ma Xin,North China Electric Power University图2默认选项:分析相关矩阵、显示未旋转因子解,主成分选取原则:特征根1特征根变化曲线主成分个数选取原则因子提取方法分析相关阵还是协方差阵按照特征根值的大小选取按照特征根值的大小
9、选取直接指直接指定主成定主成分个数分个数Ma Xin,North China Electric Power UniversityMa Xin,North China Electric Power University4)点击score,确定主成分得分将各主成分得分作为变量保存显示因子(主成分)系数矩阵注意:这里保存的是标准化的主成分,即ZsMa Xin,North China Electric Power University分析结果:Ma Xin,North China Electric Power University提取两个主成分变量共同度变量共同度载荷阵载荷阵Ma Xin,North
10、China Electric Power University主成分分析例1n对55个国家径赛成绩作主成分分析n步骤:v第一次分析:计算特征根,确定提取主成分个数v提取主成分,计算主成分得分v运用主成分得分做样本分析综合评价异常点分析Ma Xin,North China Electric Power University应该保留几个主成分?n特征根准则:特征根1n累计方差准则:如累计方差贡献率95%几点说明几点说明1:n 特征根变化曲线(Scree criterion):vScree plot:特征根随其个数的变化曲线v 寻找曲线变平坦的拐点Ma Xin,North China Electri
11、c Power University特征根准则:特征根准则:特征根准则:特征根准则:eigenvalueeigenvalue11Scree criterion数据数据Ma Xin,North China Electric Power University保留2个特征根vs保留4个特征根累计贡献率累计贡献率88%88%累计贡献率累计贡献率97%97%Ma Xin,North China Electric Power University最终结果:注意:此处主成分得分系数矩阵不是UMa Xin,North China Electric Power University主成分的解释分析载荷阵第一主成
12、分与除200m外的各变量均高度相关,从系数看,各变量权重相差不大,因而可以看成是综合评分。第二主成分则主要反映200m(短跑)成绩变量共同度loadingMa Xin,North China Electric Power University利用两个主成分分析各国运动员情况Ma Xin,North China Electric Power University-2024Ma Xin,North China Electric Power University主成分提取方法n相关矩阵vs 方差-协方差矩阵v分析相关矩阵:针对标准化变量进行主成分分析。,v分析方差-协方差矩阵:针对非标准化变量进行主
13、成分分析。几点说明几点说明2:n两者有区别:主成分分析追求最大化方差两者有区别:主成分分析追求最大化方差v协方差阵:方差数量级大的变量的影响会淹没数量级小的变量协方差阵:方差数量级大的变量的影响会淹没数量级小的变量的影响(尽管其离散度可能并不小)的影响(尽管其离散度可能并不小)大象和兔子大象和兔子v相关阵:可以克服变量计量单位不同、数量级相差较大带来的相关阵:可以克服变量计量单位不同、数量级相差较大带来的问题,更好地反映方差模式。缺点:可能放大了不重要变量的问题,更好地反映方差模式。缺点:可能放大了不重要变量的影响。影响。n用哪种方法:根据研究问题的性质、目的和经济解释用哪种方法:根据研究问题
14、的性质、目的和经济解释Ma Xin,North China Electric Power University前例:相关阵与协差阵主成分比较R Ma Xin,North China Electric Power University RMa Xin,North China Electric Power University特征根与多重共线诊断一道考题一道考题一道考题一道考题:多元回归分析中,常用病态指数(多元回归模型的:多元回归分析中,常用病态指数(多元回归模型的自变量协方差阵的最大特征根与最小特征根之比)作为多重共自变量协方差阵的最大特征根与最小特征根之比)作为多重共线的判别指标,变态指数越
15、大,多重共线越严重。请用主成分线的判别指标,变态指数越大,多重共线越严重。请用主成分分析解释其合理性。分析解释其合理性。Ma Xin,North China Electric Power University主成分分析案例主成分分析案例:2003年广东省各地区电信业发展状况综合分析n调查对象的选取v广东省21个地级市2003年度电信业发展数据v七个主要指标X1:电信业务总量(万元)X2:每百人拥有固定电话数(门)X3:每百人拥有移动电话数(个)X4:国际互联网用户(万户)X5:互联网用户使用时长(万分钟)X6:长途电话通话量(万次)X7:长途电话通话时长(万分钟)Ma Xin,North Ch
16、ina Electric Power University第一主成分:总量因素,第一主成分:总量因素,城市电信业务规模城市电信业务规模第二主成分:平均量成第二主成分:平均量成分,电话人均普及状况分,电话人均普及状况Ma Xin,North China Electric Power University各城市电信发展水各城市电信发展水平的评价:平的评价:排名排名Ma Xin,North China Electric Power University四、PCA的应用n主成分回归:当回归分析的解释变量中存在多重共线时n综合评价n降维或化简变量v分组v结构v筛选数据,找出特异点Ma Xin,North
17、 China Electric Power University1.Principal Components Regression nStandard regression problem with response y and regressors X1,X2,Xp.nX1,X2,Xp may be exactly collinear or nearly so.nLeast squares estimates of regression coefficients are not possible,or not reliable in that case.nCan use Principal
18、Components to address the problem.Ma Xin,North China Electric Power UniversityMa Xin,North China Electric Power UniversityMa Xin,North China Electric Power University例 医院生产率n因变量:manhrsn解释变量:load,xray,beddays,stay,elgpop散点图Ma Xin,North China Electric Power University主成分回归(对协方差阵):n首先找出解释变量的主成分,然后作因变量对
19、主成分的回归。v(1)对协方差阵做主成分分析Ma Xin,North China Electric Power University保留几个主成分?Ma Xin,North China Electric Power University 1 2 load 0.006780 0.032034 xray 0.978406 -.206686 beddays 0.206532 0.977801 elgpop 0.004544 0.012654 stay 0.000033 0.000488 求特征向量1、2:Ma Xin,North China Electric Power University计算主成
20、分得分Ma Xin,North China Electric Power Universityzi=faci-i 1/2注意:注意:SPSS给出的主成分得分是标准给出的主成分得分是标准化分,需转化成非标准化分化分,需转化成非标准化分.方法二:用SPSS的标准化主成分得分计算主成分得分Ma Xin,North China Electric Power University(2)主成分回归:做manhrs对主成分z1、z2的回归Ma Xin,North China Electric Power University对相关阵提取主成分系数结构与系数结构与协方差主成协方差主成分完全不同分完全不同Ma
21、Xin,North China Electric Power University主成分回归:先将Manhrs标准化,作Manhrss对标准化主成分回归(1)(2)(2)代入(1)(3)(3)非标准化:0.2330.233的含义?的含义?Ma Xin,North China Electric Power University一般回归法:删除变量Ma Xin,North China Electric Power University模型比较?方差阵主成分回归结果:相关阵主成分回归结果:Ma Xin,North China Electric Power UniversityMa Xin,North
22、 China Electric Power UniversityImportant ComparisonnReflecting on PCRvAll about summarizing the variability in the regressor spacevNo attention paid to the intended use for the variatesnReflecting on OLSvNo attention paid summarizing the variability in the regressor spacevAll about attention paid t
23、o the intended use for the variates(maximizing correlation)Ma Xin,North China Electric Power UniversityUpshotMa Xin,North China Electric Power University2.Intelligent Index Formation n从调查或实验数据创建综合评价指标从调查或实验数据创建综合评价指标nMay have answers to p questions,say X1,X2,Xp.nAnd you may want to summarize these p
24、 responses with one number(“index”)that best captures the diversity in responses.nE.g.is common to add the responses,or average them,perhaps being sensitive to questions that are reverse coded.nAlready should be clear to you that a simple averaging may not be the best way to summarize the original p
25、 questions.Ma Xin,North China Electric Power University综合评价例:人的“认知需要”n认知需要:一个人喜欢或执迷于思考问认知需要:一个人喜欢或执迷于思考问题、解决问题的程度题、解决问题的程度n如何判断某个人是否具有如何判断某个人是否具有“认知需要认知需要”?n通常可以进行测验:让被测者回答一些通常可以进行测验:让被测者回答一些问题,然后根据其答案做出判断。问题,然后根据其答案做出判断。Ma Xin,North China Electric Power UniversityCacioppo,Petty and Kao(1984)nC1:I p
26、refer complex to simple problemnC2:I like to have the responsibility of handling a situation that requires a lot of thinkingnC3:Thinking is not my idea of funnC4:I would rather do sth.requiring little thought than sth.that is sure to challenge my thinking abilitiesnC6:I find satisfaction in delibera
27、ting hard for long hoursnnC17:Its enough for me that sth.gets the job done:I dont care how or why it worksnC18:I usually end up deliberation about issues even when they do not affect me personallyMa Xin,North China Electric Power UniversityMa Xin,North China Electric Power UniversityMa Xin,North Chi
28、na Electric Power University3.Reduction of Dimension nOften able to replace the original variables X1,X2,Xp with a few new variables,say,U1,U2,Uk where k is much smaller than p.nBy plotting the first two or three pairs of these new variables you can often see structure you wouldnt otherwise be able
29、to see(e.g.clustering).v分组v结构v筛选数据,找出特异点Ma Xin,North China Electric Power UniversityMa Xin,North China Electric Power UniversityMa Xin,North China Electric Power UniversityMa Xin,North China Electric Power UniversityMa Xin,North China Electric Power Universityof什么情况适宜用主成分分析?什么情况适宜用主成分分析?变量间有较强的相关性变量间有较强的相关性