《主成分分析 (2)精选PPT.ppt》由会员分享,可在线阅读,更多相关《主成分分析 (2)精选PPT.ppt(27页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于主成分分析(2)第1页,讲稿共27张,创作于星期一学习目标v了解主成分分析的数学模型;v熟悉主成分分析的方法步骤;v掌握主成分分析的作用和应用领域;v掌握PRINCOMP过程并运用此过程进行数据分析。第2页,讲稿共27张,创作于星期一概述v主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在统计分析中也称为变量。因为每个变量都不同程度地反映了所研究问题的某些信息,并且指标之间有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时
2、,变量太多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。第3页,讲稿共27张,创作于星期一概述v科学研究所涉及的课题往往比较复杂,是因为影响客观事物的因素多,需要考察的变量多。例如,糖尿病、动脉硬化等疾病的病因是多种多样的,收集的资料中包含的信息是丰富多彩的。再如,在心理学研究中,描述儿童气质的指标可以有9个,描述儿童活动能力的指标可以有6个,;在临床医学研究中,描述儿童生长发育的的可以有12个指标,鉴别阑尾炎病型的可以有27个指标。然而,重叠的、低质量的信息越多,越不利于医生作出诊断。指标较多时,给资料分析带来很多麻烦,增加了分析问题的
3、复杂性和难度。例如,在线性回归分析中,要求模型中的自变量是相互独立的,否则,估计的结果是不准确的,甚至是相反的结论,产生误导。第4页,讲稿共27张,创作于星期一概述v在大部分实际问题中,变量之间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。比如描述儿童生长发育的指标中,身高、腿长和臂长这三个指标可能是相关的,而胸围、大腿围和臂围这三个围度指标也会有一定的相关性。如果分别用每一个指标对儿童的生长发育做出评价,那么这种评价就是孤立的、片面的,而不是综合的。仅选用几个“重要的”或“有代表性”的指标来评价,就失去了许多有用的信息,容易得出片面的结论
4、。所以,我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。第5页,讲稿共27张,创作于星期一概述v主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。何为主成分?简而言之,主成分实际上就是由原变量X1Xm线性组合出来的个互不相关、且未丢失任何信息的新变量,也称为综合变量。多指标的主成分分析常被用来寻找判断某种事物或现象的综合指标,并给综合指标所蕴藏的信息以
5、恰当解释,以便更深刻地揭示事物内在的规律。第6页,讲稿共27张,创作于星期一主成分分析简介 v主成分分析法是一种数学变换的方法,它把给定的一组相关变量通过线性变换转成另一组不相关的变量,这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第一变量具有最大的方差,称为第一主成分,第二变量的方差次大,并且和第一变量不相关,称为第二主成分。依次类推,I个变量就有I个主成分。v主成分分析是把原来多个变量划为少数几个综合指标的一种统计分析方法,是一种降维处理技术。第7页,讲稿共27张,创作于星期一主成分分析的方法步骤 v主成分分析的过程,就是确定原来变量xj()在各主成分zi()
6、上的载荷lij。v从主成分分析的基本原理和数学模型可以看出,主成分分析的任务是估计主成分,确定主成分的个数,解释主成分的实际意义和计算主成分得分。v假设有k个指标x1,x2,xk,每一个指标有n个观测值,它们的标准化指标变量是 ,第8页,讲稿共27张,创作于星期一主成分分析的方法步骤v对原始指标数据进行标准化变换:v将原始数据标准化,然后利用标准化的数据计算主成分。X为标准化后的数据矩阵,则:第9页,讲稿共27张,创作于星期一主成分分析的方法步骤v计算相关系数矩阵:v其中,第10页,讲稿共27张,创作于星期一主成分分析的方法步骤v计算相关矩阵的特征值和特征值所对应的特征向量:v求主成分的问题,
7、实际上就是要求出标准化指标变量X的协方差矩阵Cov(X)的特征值和特征向量。X的协方差矩阵为:第11页,讲稿共27张,创作于星期一主成分分析的方法步骤v求得k个非负特征值 ,将这些特征值按从小到大的顺序排列为:v再由v解得每一特征值对应的特征向量,从而求得各主成分:第12页,讲稿共27张,创作于星期一主成分分析的方法步骤v计算主成分贡献率及累计贡献率v各主成分互不相关,即的相关系数:v于是,各主成分间的相关系数矩阵为单位矩阵。v一般地,主成分Zi的贡献率为:第13页,讲稿共27张,创作于星期一主成分分析的方法步骤v确定主成分的个数v当得到了k个主成分后,要根据确定主成分个数的准则和主成分的实际
8、意义来确定主成分的个数。一般说,确定主成分个数的准则有两个:以累积贡献率来确定:当前P个主成分的累积贡献率达到某一特定值时(一般采用70%85%为准则),则保留前P个主成分。根据特征值大小来确定,一般地,取特征值大于或等于1为准则。若有s个特征值大于或等于1,那么就可以确定主成分的个数为s个。一般可以将两种确定主成分个数的方法结合起来,选出有实际意义的主成分。第14页,讲稿共27张,创作于星期一主成分分析的方法步骤v计算主成分载荷v第i个主成分Zi的特征值的平方根与第j原始指标Xj的系数lij的乘积v为因子载荷。由因子载荷所构成的矩阵为因子载荷阵。实际数,因子载荷qij就是第i主成分Zi与第j
9、原始指标Xj之间的相关系数,它反映了主成分Zi与原始指标Xj之间联系的密切程度与作用方向。第15页,讲稿共27张,创作于星期一主成分分析的方法步骤v计算主成分得分v如果标准化指标变量 的第i个主成分是:v其中,v是xj的标准化指标变量。那么,第i个主成分可以转换为原始指标变量的线性组合:v v 第16页,讲稿共27张,创作于星期一主成分分析的应用 v研究多个指标变量之间的依存关系,是医学研究中很重要的一件事情。但是,在研究多个指标变量之间的依存关系时,经常会遇到两个问题:指标变量过多,使得分析难度增加;变量之间的共线性存在,即变量之间不完全独立,这种情况造成分析结果不稳定或不正确。因此,解决自
10、变量之间的多重共线性和减少变量个数对依存关系的分析就很重要了。第17页,讲稿共27张,创作于星期一主成分分析的应用v根据主成分分析原理,它一方面可以将k个不独立的指标变量通过线性变换变成k个相互独立的新变量,这是解决多重共线性问题的一个重要方法。另一方面,主成分分析可以用较少的变量取代较多的不独立的原变量,减少分析中变量的个数。概括地说,主成分分析有以下几方面的应用:第18页,讲稿共27张,创作于星期一主成分分析的应用v对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。v探索多个原始指标对个体特征的影响:对于多个
11、原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。v对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。第19页,讲稿共27张,创作于星期一主成份分析SAS程序 vSAS系统中利用PRINCOMP过程对数据进行主成分分析。vPRINCOMP过程的语法格式如下:vPROC PRINCOMP DATA=OUT=OUTSTAT=NOINT COV N STD VARDEF 选项;vVAR 变量/选项;vPARTIAL 变量;vRUN;第20页,讲稿共27张,创作于
12、星期一主成份分析SAS程序vDATA语句指定要分析的数据集名及一些选项,它可以是原SAS数据集,也可以是corr、cov、ucorr、ucov等矩阵。vOUT选择项指定统计量的输出数据集名,该数据集保存的是样本的原始指标变量和主成分得分变量。vOUTSTAT指定输出结果的SAS数据集名,该数据集保存的是每一个指标的均值、标准差、样本数、相关系数矩阵、特征值和得分系数。vNOINT选择项指令系统使用未对均值校正的相关系数矩阵或方差协方差矩阵进行主成分分析,它等价于主成分模型中不含常数项。第21页,讲稿共27张,创作于星期一主成份分析SAS程序vCOV选择项指令系统用方差协方差矩阵计算主成分,如果
13、该选择项缺省,系统用相关系数矩阵计算主成分。vN选择项给出主成分的个数。vSTD选择项指令系统在输出数据集中,主成分得分变量的方差被标准化为1。vVAR语句用于列出要分析的原始变量。如果该语句缺省,系统分析其它语句中未涉及到的所有指标变量。vPARTIAL语句用于列出混杂变量,指定系统使用偏相关系数或偏方差、协方差来计算主成分。例如,PARTIAL X;它表示偏相关系数或偏方差、协方差是以变量X为混杂变量的,即所有的相关系数都表示的是在X不变的情况下,两个变量之间的关联程度。但是,该语句列出的变量不能出现在VAR语句中。第22页,讲稿共27张,创作于星期一本章小节 v在大部分实际问题中,变量之
14、间是有一定的相关性的,人们自然希望找到较少的几个彼此不相关的综合指标尽可能多地反映原来众多变量的信息。本章介绍了主成分分析的数学模型、方法步骤以及主成分分析的应用。我们需要一种综合性的分析方法,既可减少指标变量的个数,又尽量不损失原指标变量所包含的信息,对资料进行全面的综合分析。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。主成份分析的基本思想就是将彼此相关的一组指标变量转化为彼此独立的一组新的指标变量,并用其中较少的几个新指标变量就能综合反应原多个指标变量中所包含的主要信息,符合专业含义。第23页,讲稿共27张,创作于星期一本章小节v本章对主成分分析的数学模型、分析方法步骤以及应
15、用问题进行了详细地阐述。我们在学习的过程中,要熟悉主成分分析的方法步骤:对原始指标数据进行标准化变换、计算相关系数矩阵、计算相关矩阵的特征值和特征值所对应的特征向量、计算主成分贡献率及累计贡献率、确定主成分的个数、计算主成分载荷和计算主成分得分。第24页,讲稿共27张,创作于星期一本章小节v主成分分析有以下几方面的应用:对原始指标进行综合:主成分分析的主要作用是在基本保留原始指标信息的前提下,以互不相关的较少个数的综合指标来反映原来指标所提供的信息。探索多个原始指标对个体特征的影响:对于多个原始指标,求出主成分后,可以利用因子载荷阵的结构,进一步探索各主成分与多个原始指标之间的相互关系,分析各原始指标对各主成分的影响作用。对样本进行分类:求出主成分后,如果各主成分的专业意义较为明显,可以利用各样品的主成分得分来进行样品的分类。第25页,讲稿共27张,创作于星期一本章小节vSAS系统中利用PRINCOMP过程对数据进行主成分分析。并利用两个实例讲解主成分分析的应用。第一个实例说明主成分减少指标变量个数的作用。第二个实例阐述了主成分分析可以用来解决自变量共线性的问题,并详细讲解了主成分分析解决自变量共线性问题的具体方法步骤。第26页,讲稿共27张,创作于星期一28.09.2022感感谢谢大大家家观观看看第27页,讲稿共27张,创作于星期一