《主成分分析原理及详解高等教育试题_高等教育-理学.pdf》由会员分享,可在线阅读,更多相关《主成分分析原理及详解高等教育试题_高等教育-理学.pdf(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第14章 主成分分析 概述 l.i基本概念 l.i.i 定义 主成分分析是根据原始变量之间的相互关系,寻找一组由原变量组成、而彼此不相 关的综合变量,从而浓缩原始数据信息、简化数据结构、压缩数拯规模的一种统计方法。1.1.2 举例 为什么叫主成分,下面通过一个例子来说明。假泄有 N 个儿童的两个指标 xl 与 x2,如身高和体重。xl 与 x2 有显著的相关性。当 N 较大时,N 观测量在平面上形成椭圆形的散点分布图,每一个坐标点即为个体 xl 与 x2 的取值,如果把通过该椭圆形的长轴取作新坐标轴的横轴 Zi,在此轴的原点取一条垂 直于 Z.的直线定为新坐标轴的 Z2,于是这 N 个点在新坐
2、标轴上的坐标位垃发生了改变:同时这 N 个点的性质也发生了改变,他们之间的关系不再是相关的。很明显,在新坐标 上乙与 N 个点分布的长轴一致,反映了 N 个观测量个体间离差的大部分信息,若乙反 映了原始数据信息的80%,则 Z2只反映总信息的 20%o 这样新指标Z称为原指标的第 一主成分,Z?称为原指标的第二主成分。所以如果要研究 N 个对象的变异,可以只考虑 Zi 这一个指标代替原来的两个指标(xl 与 x2),这种做法符合 PCA 提岀的基本要求,即 减少指标的个数,又不损失或少损失原来指标提供的信息。1.1.3 函数公式 通过数学的方法可以求岀乙和 Z2 与 xl 与 x2 之间的关系
3、。Zi=lnXi+li 2X2 Z2=hiXi+I22X2 即新指标 Z和 Z2是原指标 xl 与 x2 的线性函数。在统讣学上称为第一主成分和第二 主成分。若原变量有 3 个,且彼此相关,则 N 个对象在 3 维空间成椭圆球分布.见图 14-lo 通过旋转和改变原点(坐标 0 点),就可以得到第一主成分、第二主成分和第三主成 分。如果第二主成分和第三主成分与第一主成髙度相关,或者说第二主成分和第三主成 分相对于关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上
4、形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原第一主成分来说变异很小,即 N 个对象在新坐标的三维空间分布成一长杆状时,则只需用一个综合指标便能反映原始数据中 3 个变量的基本特征。1.2 PCA满足条件 1.2.1 一般条
5、件 一般来说,N 个对象观察 p 个指标,可以得到 N*p 个数据(矩阵)。只要 P 个指标之间存在有相关关系,就可以通过数学的方法找到一组新的指标,它 们需要满足的条件如下。(1)Z,是原指标的线性函数,且它们相互垂直;(2)各个 Z,互不相关:(3)各个 Z,加起来提供原指标所含的全部的信息,且 Z:提供信息最多,Z=次之,依次类推。1.2.2 PCA 的一般步骤(1)输入或打开数据文件;(2)数据进行标准化处理;(3)计算矩阵的相关系数;(4)求相关矩阵的特征根 X、X、X5,并将它们按大小排序。(5)求特征向量和各主成分;(6)计算各主成分的贡献率;(7)解释各主成分的含义 上述的步骤
6、大部分由 SPSS 执行,用户需要选择观测对象、选择变量,收集数据,将 数据输入 SPSS 程序,最后选择需要多少个主成分,解释各主成分的实际意义。关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基
7、本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原1.3 SPSS运行主要选择项 1.3.1 操作步骤 Analyzes/data reduction/factor/open factor analyz已 s/对话框,主要有 5 个对 话框,下而简要介绍。关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴
8、上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原因子分析主对话框。主要用来选择变量、选择输出结果内容和多少、选择 PCA 有关 数学处理如是否旋转,提取多少个因子数,是否保存各个因子得分等。Factor Analysis:因子分析:Descriptive:描述性统计选项;Extra
9、ction:提取因子选项:Rotation:旋转选择;Scores:因子得分选项;Option:其它选项。132 主对话框;Factor Selection Variable:Value.1.3.3 Descriptive 对话框 Statistics:统讣数据 Univariate descriptive:单变量描述性统 il:Initial solution:初始解的统计量。Correlation matrix:相关矩阵 Coeffcients:相关系数矩阵。Inverse:相关系数矩阵逆矩阵。Significance levels:相关系数显著性水平。Variables:12 3 4 X
10、 X X X Oescriptives.Extraction.Rotation.Scores.Options.Help 关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来
11、说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原 Reproduced:再生相关矩阵。给岀因子分析后的相关矩阵。Factor Analysis:Descriptives 1.3.4 Extraction method 提取公因子方法 Method:方法 Principal components analyze:主成分分析 Unweight least squares:未加权最小二乘法 Generalized least squares:广义最小二乘法 Analysis:分析 Coeffcients matrix:相关
12、系数矩阵。Correlation Matrix 厂 Coefficients 厂 Inverse 厂 Significance levels 厂 Reproduced 厂 Determinant 厂 Anti-image 厂 KMO and Bartletfs test of sphericity Statistics r ynivariate descriptives P*Initial solution 关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成
13、椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原 Covariance matrix:协方差矩阵。Display:显示 Unrotated factor solution:非旋转因子解。Screen plot of the eig
14、envalues:特征值碎石图。Extract:提取。Eigenvalues over 1:系统默认值是 1,表示提取特征值大于 1 的因子。Number of factor 2:提取公因子的个数。理论上有多少个因子 1.3.5 Rotation method 旋转方法对话框 Method:方法 None:不进行旋转 Quartimax:四分位最大正交族转 Vari max:方差最大正交旋转。Equamax:相等最大正交旋转。Display:显示 Rotation solution:旋转解 c Loading plots:旋转因子空间的载荷图。关的综合变量从而浓缩原始数据信息简化数据结构压缩数
15、拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原1.3.6 Scores 因子得分对话框 S
16、ave as variables:将因子得分数据存入为新变量。Regression:用回归法计算因子得分。Bartlett:巴特尼特法计算因子得分。Anderso-rubin,Anderso-rubin:法计算因子得分。Dispaly factor score coefficient matrx,显示因子得分系数矩阵。1.3.7 Option 对话框 Missing Values:缺失值处理 Exclude cases list wise:删除全部缺省值的个案。Exclude cases pair wise:成对删除含有缺省值的个案。Replace with mean:用均值替代缺省值。关的综
17、合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原
18、 Coefficient display format 因子得分系数矩阵的显示格式。关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵
19、只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原 Sorted by size:按大小排列。回到主对话框上。Variables:选择左边变量栏中的变量,用箭头键将要分析的变 虽移入右边的变量栏。准备分析。例如移入身髙、体重。Selection Variable:选择变量窗口。在该窗口输入变量需(case),则因子分析只对有 关case 对应的变量进行分析。单击右边 Value 窗口打开 Set Value 对话框。输入数值作为 指左值。单击 continue,返回主对话框。见下图 关的综合变量从而浓缩原始数据信息简化数据结构压缩数拯规模的一种统计方法举例为什么叫主成分下面通过一个例子来说明假泄有个儿童的两个指标与如身高和体重与有显著的相关性当较大时观测量在平面上形成椭圆形的散点分的直线定为新坐标轴的于是个点在新坐标轴上的坐标位垃发生了改变同时个点的性质也发生了改变他们之间的关系不再是相关的很明显在新坐标上乙与个点分布的长轴一致反映了个观测量个体间离差的大部分信息若乙反映了原始数则只需用一个综合指标便能反映原始数据中个变量的基本特征满足条件一般条件一般来说个对象观察个指标可以得到个数据矩阵只要个指标之间存在有相关关系就可以通过数学的方法找到一组新的指标它们需要满足的条件如下是原