《厦门大学《应用多元统计分析》第08章_相应分析.ppt》由会员分享,可在线阅读,更多相关《厦门大学《应用多元统计分析》第08章_相应分析.ppt(58页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第八章 相应分析第一节第一节 引引 言言 第二节第二节 列联表列联表 第三节第三节 相应分析的基本理论相应分析的基本理论 第四节第四节 相应分析中应注意的问题相应分析中应注意的问题 第五节第五节 实例分析与计算机实现实例分析与计算机实现 第一节第一节 引引 言言n相应分析相应分析(correspondence analysis)也叫对应分析,其特点也叫对应分析,其特点是它所研究的变量可以是定性的。通常意义下的相应分析,是它所研究的变量可以是定性的。通常意义下的相应分析,是指对两个定性变量(因素)的多种水平进行相应性研究,是指对两个定性变量(因素)的多种水平进行相应性研究,因而它的应用越来越广泛
2、,现在这种方法已经成为常用的多因而它的应用越来越广泛,现在这种方法已经成为常用的多元分析方法之一。元分析方法之一。n在社会、经济以及其他领域中,进行数据分析时经常要处理在社会、经济以及其他领域中,进行数据分析时经常要处理因素与因素之间的关系,及因素内部各个水平之间的相互关因素与因素之间的关系,及因素内部各个水平之间的相互关系。例如,评价某一个行业所属企业的经济效益,我们不仅系。例如,评价某一个行业所属企业的经济效益,我们不仅要研究因素要研究因素A,即企业按照经济效益好坏的分类情况,以及,即企业按照经济效益好坏的分类情况,以及要研究因素要研究因素B,即经济效益指标之间的关系,还要研究哪些,即经济
3、效益指标之间的关系,还要研究哪些企业与哪些经济效益指标更密切一些。这就需要相应分析的企业与哪些经济效益指标更密切一些。这就需要相应分析的方法,将经济效益指标和企业状况放在一起进行分类、作图,方法,将经济效益指标和企业状况放在一起进行分类、作图,以便更好的描述两者之间的关系,在经济意义上做出切合实以便更好的描述两者之间的关系,在经济意义上做出切合实际的解释。际的解释。n相应分析的思想首先由理查森(相应分析的思想首先由理查森(Richardson)和库德)和库德(Kuder)于)于1933年提出,后来法国统计学家让年提出,后来法国统计学家让-保罗保罗贝内贝内泽(泽(Jean-Paul Benzcr
4、i)等人对该方法进行了详细的论述而)等人对该方法进行了详细的论述而使其得到了发展。为了把握相应分析方法的实质,本章将从使其得到了发展。为了把握相应分析方法的实质,本章将从列联资料入手,介绍一些基本概念和相应分析的基本理论,列联资料入手,介绍一些基本概念和相应分析的基本理论,并让读者理解相应分析与独立性检验的关系,进一步明确对并让读者理解相应分析与独立性检验的关系,进一步明确对实际问题进行相应分析研究的必要性所在。实际问题进行相应分析研究的必要性所在。第二节第二节 列联表列联表一一 列联表的概念列联表的概念二二 有关记号有关记号 一、列联表的概念一、列联表的概念n在实际中经常要了解两组或多组因素
5、在实际中经常要了解两组或多组因素(或变量或变量)之间的关系。之间的关系。设有两组因素设有两组因素A和和B,其中因素,其中因素A包含包含r个水平,即个水平,即A1,A2,Ar;因素;因素B包含包含c个水平,即个水平,即B1,B2,Bc。又设有。又设有受制于这两个因素的载体受制于这两个因素的载体(或客体或客体)的集合总体的集合总体。我们希望。我们希望通过对总体通过对总体 关于这两组因素的有关资料关于这两组因素的有关资料(或抽样资料或抽样资料),来,来分析这两组因素的关系。分析这两组因素的关系。n例如,要考查在某个人群中关于吸烟或不吸烟例如,要考查在某个人群中关于吸烟或不吸烟(因素因素A)与得与得肺
6、癌或不得肺癌肺癌或不得肺癌(因素因素B)两组因素之间的关系。通常的作法两组因素之间的关系。通常的作法是,随机地从该人群中抽样,对这两种因素进行调查,设调是,随机地从该人群中抽样,对这两种因素进行调查,设调查了查了k个人,得到一个二维列联表,见表个人,得到一个二维列联表,见表8.1。n其中,其中,kij为调查的为调查的k人中出现因素人中出现因素A的第的第i个水平和因素个水平和因素B的第的第j个水平的人数。这样,我们就得到一个两因素,即吸烟与是个水平的人数。这样,我们就得到一个两因素,即吸烟与是否得肺癌的否得肺癌的2 2列联表。列联表。表表8.1 二维列联表二维列联表 n n 表表8.2 一般的二
7、维列联表一般的二维列联表二、有关记号二、有关记号n为了叙述方便,先引进一些基本概念和记号。为了叙述方便,先引进一些基本概念和记号。n设设K=(kij)r c为一个为一个r c的列联表的列联表(表表8.2),称元素,称元素kij为原始频为原始频数。将列联表数。将列联表K转化为频率矩阵,记为转化为频率矩阵,记为F=(fij)r c,见表,见表8.3。表表8.3 一般的二维频率表一般的二维频率表 n n n n 第三节第三节 相应分析的基本理论相应分析的基本理论一一 原始资料的变换原始资料的变换 二二 基于矩阵的分析过程基于矩阵的分析过程 n我们知道相应分析的主要目的是寻求列联表行因素我们知道相应分
8、析的主要目的是寻求列联表行因素A和列因和列因素素B的基本分析特征和它们的最优联立表示。为了实现行因的基本分析特征和它们的最优联立表示。为了实现行因素素A与列因素与列因素B最优联立表示,进一步剖析行因素最优联立表示,进一步剖析行因素A内部之间,内部之间,列因素列因素B内部之间,以及因素内部之间,以及因素A和列因素和列因素B之间的关系,这里之间的关系,这里将介绍原始的列联资料将介绍原始的列联资料K=(kij)r c变换成矩阵变换成矩阵Z=(zij)r c的的具体过程,这样使得具体过程,这样使得zij对因素对因素A和列因素和列因素B具有对等性,在此具有对等性,在此基础上进行相应分析。基础上进行相应分
9、析。一、原始资料的变换一、原始资料的变换n n 二、基于矩阵的分析过程二、基于矩阵的分析过程n(8.14)式表明)式表明Zuj为相对于特征值为相对于特征值j j的关于因素的关于因素A各水平构各水平构成的协差阵成的协差阵r的特征向量。这样我们就建立了相应分析中的特征向量。这样我们就建立了相应分析中R型因子分析和型因子分析和Q型因子分析的关系。也就是说,我们可以从型因子分析的关系。也就是说,我们可以从R型因子分析出发而直接得到型因子分析出发而直接得到Q型因子分析的结果。型因子分析的结果。n这里需要强调的是,由于这里需要强调的是,由于r和和c有相同的特征根,而这些特有相同的特征根,而这些特征根又表示
10、各个公共因子所提供的方差。那么,在因素征根又表示各个公共因子所提供的方差。那么,在因素B的的c维空间维空间Rc中的第一公共因子,第二公共因子直到第中的第一公共因子,第二公共因子直到第m个公共个公共因子与因素因子与因素A的的r维空间维空间Rr中相对于的各个主因子在总方差中中相对于的各个主因子在总方差中所占的百分比就完全相同。这样就可以用相同的因子轴同时所占的百分比就完全相同。这样就可以用相同的因子轴同时描述两个因素各个水平的情况,把两个因素的各个水平的状描述两个因素各个水平的情况,把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上。一般情形,我况同时反映到具有相同坐标轴的因子平面上。
11、一般情形,我们取两个公共因子,这样就可以在一张二维平面图上绘出两们取两个公共因子,这样就可以在一张二维平面图上绘出两个因素各个水平的情况,即可以直观地描述两个因素个因素各个水平的情况,即可以直观地描述两个因素A和因和因素素B以及各个水平之间的相关关系。以及各个水平之间的相关关系。第四节第四节 相应分析中应注意的问题相应分析中应注意的问题n我们知道相应分析是分析两组或多组变量之间关系的有效方我们知道相应分析是分析两组或多组变量之间关系的有效方法,在离散情况下,它是从资料出发通过建立因素间的二维法,在离散情况下,它是从资料出发通过建立因素间的二维或多维列联表来对数据进行分析。在此我们要问,这种分析
12、或多维列联表来对数据进行分析。在此我们要问,这种分析是否有意义,或者说对于所给的数据是否值得做这种相应分是否有意义,或者说对于所给的数据是否值得做这种相应分析。这一节我们将介绍相应分析与独立性检验的内在关系,析。这一节我们将介绍相应分析与独立性检验的内在关系,以此说明应用相应分析方法在解决实际问题时,避免盲目性。以此说明应用相应分析方法在解决实际问题时,避免盲目性。n n 第五节第五节 实例分析与计算机实现实例分析与计算机实现一一 利用利用SPSS进行相应分析进行相应分析实例实例1 二二 利用利用SPSS进行相应分析进行相应分析实例实例2 一、利用一、利用SPSS进行相应分析进行相应分析实例实
13、例1n数据来自数据来自SPSS软件自带数据集软件自带数据集voter.sav,为,为1992年美国大选年美国大选的部分数据。要求对选民的最高学历水平(的部分数据。要求对选民的最高学历水平(degree)和所支)和所支持的总统候选人(持的总统候选人(pres92)进行相应分析。)进行相应分析。(一)操作步骤(一)操作步骤1.正确打开数据集正确打开数据集voter.sav后,由后,由AnalyzeData ReductionCorrespondence Analysis可进入相应分析的主对可进入相应分析的主对话框(图话框(图8.1)。)。图图8.1 相应分析主界面相应分析主界面2.从左侧变量列表中
14、选择两个变量作为相应分析的两个维度。从左侧变量列表中选择两个变量作为相应分析的两个维度。这里我们选择这里我们选择pres92作为行维度,点击作为行维度,点击Row左侧的三角箭头左侧的三角箭头就可以看到在就可以看到在Row项下出现了项下出现了pres92(?),这时用鼠标选中,这时用鼠标选中该变量,其下方的该变量,其下方的Define Range子对话框激活,点击后出现子对话框激活,点击后出现变量水平设置窗口(图变量水平设置窗口(图8.2)。分为上下两个部分:)。分为上下两个部分:Category range for row variable:pres92和和Category Constrain
15、ts。这里要分析所有的三位总统候选人和选民的学历水平的关系,这里要分析所有的三位总统候选人和选民的学历水平的关系,所以在所以在Minimum value中填入中填入1,在,在Maximum value中填入中填入3,之后点击之后点击Update按钮。就可以在下方的按钮。就可以在下方的Category Constraints栏中看到,后续分析中的行变量仅包含栏中看到,后续分析中的行变量仅包含3个类目,分别是个类目,分别是1、2和和3。图图8.2 Define Row Range子对话框子对话框 在右侧还有三个单选项:在右侧还有三个单选项:None表示没有任何约束;表示没有任何约束;Categor
16、ies must be equal可用于指定某些类目的得分必须相同,最多可以可用于指定某些类目的得分必须相同,最多可以设置有效类目的个数减设置有效类目的个数减1个得分相等的类目,如本例中最多可个得分相等的类目,如本例中最多可以设置以设置2个类目得分相等;个类目得分相等;Category is supplemental表示某些表示某些类目不参加相应分析但是会在图形中标示。这里我们不对分类类目不参加相应分析但是会在图形中标示。这里我们不对分类进行任何约束,点击进行任何约束,点击Continue按钮后回到主对话框。按钮后回到主对话框。类似的可以指定类似的可以指定degree的有效类目最小值为的有效类
17、目最小值为0,最大值为,最大值为4。3.点击点击Model按钮,指定相应分析结果的维数。(图按钮,指定相应分析结果的维数。(图8.3)(1)Dimensions in solution。默认为。默认为2,最大可以设置为各变量,最大可以设置为各变量 中的最少类目数减中的最少类目数减1。(2)选择距离测度的方式)选择距离测度的方式Distance Measure。有。有Chi square 和和Euclidean两种,定性变量应该用两种,定性变量应该用Chi square。(3)标准化方法)标准化方法Standardization Method。图图8.3 Model子对话框子对话框 (4)正态化
18、方法)正态化方法Normalization Method。需要比较行列变量的类。需要比较行列变量的类 目差异时选择目差异时选择Symmetrical,需要比较行列变量中任意两个类目的,需要比较行列变量中任意两个类目的 差异时选择差异时选择Principal,比较行变量的类目差异时选择,比较行变量的类目差异时选择Row principal,而比较列变量的类目差异时选择,而比较列变量的类目差异时选择Column principal,也,也 可以在可以在Customize中指定中指定-1,1之间的任意实数,特别的,如果输之间的任意实数,特别的,如果输入入-1则为则为Column principal,
19、输入,输入1为为Row principal,输入,输入0为为 Symmetrical。而一般该对话框中的选项无需改动。而一般该对话框中的选项无需改动。4.点击点击Statistics按钮,设定输出的相应分析统计量,如图按钮,设定输出的相应分析统计量,如图8.4。可以指定输出相应分析表可以指定输出相应分析表Correspondence table,行点总览,行点总览表表Overview of row points,列点总览表,列点总览表Overview of column points,行轮廓,行轮廓Row profiles,列轮廓,列轮廓Column profiles。默认。默认只输出前三项。
20、而只输出前三项。而Permutations of the correspondence table是用于指定前是用于指定前n个维度的行列得分表。如果该项选中,下方个维度的行列得分表。如果该项选中,下方的的Maximum dimension for permutations被激活,用于指定被激活,用于指定维度维度n。此外,还可以在。此外,还可以在Confidence Statistics for复选项中选复选项中选择计算行点和列点的标准差以及相关系数。择计算行点和列点的标准差以及相关系数。图图8.4 Statistics子对话框子对话框5.点击点击Plots按钮,设定输出的统计图,如图按钮,设定
21、输出的统计图,如图8.5。可以指定输。可以指定输出相应分析的散点图出相应分析的散点图Scatterplots,默认只输出包含行列变量,默认只输出包含行列变量的双变量散点图的双变量散点图Biplot。也可指定输出行点图。也可指定输出行点图Row points和和列点图列点图Column points。而。而ID label width for Scatterplots是是指定散点标签的长度,默认指定散点标签的长度,默认20。下方的。下方的Line plots项中,可以项中,可以输出行输出行/列点对应于行列点对应于行/列得分的线图,和散点图类似。列得分的线图,和散点图类似。6.我们在我们在Mode
22、l,Statistics,Plots三个子对话框中都使用默三个子对话框中都使用默认设定,点击主对话框的认设定,点击主对话框的OK按钮,即得到相应分析的结果。按钮,即得到相应分析的结果。图图8.5 Plots子对话框子对话框(二)结果分析:(二)结果分析:SPSS运行相应分析后会产生以下四张表(表运行相应分析后会产生以下四张表(表8.4到表到表8.7)。)。1.Correspondence Table(相应分析表),如表(相应分析表),如表8.4,即列联,即列联表。表。Active Margin为边际频数。大致可以看出为边际频数。大致可以看出Clinton在各个学历在各个学历层次都有最高的票数。
23、层次都有最高的票数。表表8.4 列联表列联表 2.Summary(总览表),如表(总览表),如表8.5。表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、表中从左到右依次是维度编号、奇异值、惯量、卡方统计量、显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和显著性、惯量所占总惯量比例、每个维度的奇异值的标准差和相关系数。相关系数。Singular Value为特征值的平方根,根据总惯量和为特征值的平方根,根据总惯量和特征值求和相等,有特征值求和相等,有0.1392+0.0162=0.019+0.000=0.019。第一。第一个维度惯量个维度惯量0.019,占总惯量的,占总惯量的98.7
24、%,第二个维度惯量接近,第二个维度惯量接近0,仅占总惯量,仅占总惯量1.3%。因此可以认为只要用一个维度就可以解释。因此可以认为只要用一个维度就可以解释行列变量之间所有的关系,但为了说明分析过程,仍然保留两行列变量之间所有的关系,但为了说明分析过程,仍然保留两个维度。总惯量个维度。总惯量35.8671844=0.19,满足总惯量和卡方统计量,满足总惯量和卡方统计量的关系式。同时卡方统计量的自由度的关系式。同时卡方统计量的自由度8=(3-1)(5-1),数值为,数值为0.000,说明行列变量之间存在显著的相关性,相应分析是有意,说明行列变量之间存在显著的相关性,相应分析是有意义的。义的。表表8.
25、5 总览表总览表 3.Overview Row Points与与Overview Column Points(行(行/列列点总览表),如表点总览表),如表8.6,表,表8.7。现以表现以表8.6为例,为例,Mass项表示行变量中每个类目的边际概率。项表示行变量中每个类目的边际概率。Score in dimension下面则是行点在两个维度的坐标(下面则是行点在两个维度的坐标(SPSS称称为得分),即有坐标点为得分),即有坐标点Bush(0.194,-0.156),),Perot(0.663,0.198),),Clinton(-0.346,0.053)。)。Inertia项为项为惯量,即每个行点
26、与行重心的加权距离的平方。而行惯量为行惯量,即每个行点与行重心的加权距离的平方。而行惯量为行点与行重心的加权距离平方和,即点与行重心的加权距离平方和,即0.19=0.002+0.009+0.008。比。比较表较表8.6和表和表8.7的总惯量,可以发现行惯量与列惯量相等。的总惯量,可以发现行惯量与列惯量相等。Contribution项有两个部分,分别是行变量的每个类目对维度项有两个部分,分别是行变量的每个类目对维度(公共因子)特征值的贡献,每一个维度对每个类目的特征值(公共因子)特征值的贡献,每一个维度对每个类目的特征值的贡献。的贡献。表表8.6 行点总览表行点总览表表表8.7 列点总览表列点总
27、览表4.相应分析图,如图相应分析图,如图8.6。可以发现研究生层次的选民(可以发现研究生层次的选民(Graduate degree)倾向于具有实)倾向于具有实干精神的干精神的Clinton,而较,而较Clinton更为激进的更为激进的Bush更受更受high school和和Bachelor层次的选民欢迎,层次的选民欢迎,Perot仅和仅和junior college层层次的选民较近。次的选民较近。图图8.6 相相应应分分析析的的二二维维图图 5.如果在如果在Statistics子对话框中选中了子对话框中选中了Row profile和和Column profile,SPSS还会输出以下两张表(
28、表还会输出以下两张表(表8.8,表,表8.9)。)。表表8.8 行轮廓表行轮廓表表表8.9 列轮廓表列轮廓表6.行行/列点图(图列点图(图8.7,图,图8.8)。)。如果要单独考察行如果要单独考察行/列变量的各个水平在两个公共因子维度上列变量的各个水平在两个公共因子维度上的分布情况,可在的分布情况,可在Plots子对话框中选中子对话框中选中Row points和和Column points。运行后即得下图:。运行后即得下图:图图8.7 行点在两个公共因子维度上的分布行点在两个公共因子维度上的分布图图8.8 列点在两个公共因子维度上的分布列点在两个公共因子维度上的分布 二二、利用、利用SPSS进
29、行相应分析进行相应分析实例实例2n 表表8.10 4只股票的财务数据只股票的财务数据(一)操作步骤:(一)操作步骤:1.首先由首先由SPSS的因子分析过程(详细步骤参见因子分析一章)的因子分析过程(详细步骤参见因子分析一章),通过主成分法估计和最大方差旋转法进行因子旋转,发现,通过主成分法估计和最大方差旋转法进行因子旋转,发现需要需要3个公共因子才能解释个公共因子才能解释83%以上的方差。可得因子得分以上的方差。可得因子得分的计算公式为(加上的计算公式为(加上*号的变量和因子表示都已经标准化):号的变量和因子表示都已经标准化):因此因此factor1可以称为股票规模因子,可以称为股票规模因子,
30、factor2称为股票收益因子,称为股票收益因子,factor3称为个股价值因子。将这三个因子划分为称为个股价值因子。将这三个因子划分为5个等级:低个等级:低于于-0.5,-0.50,00.5,0.51,大于,大于1,分别编码为,分别编码为1,2,3,4,5。这样就可以利用相应分析来详细的研究这三个因子之间的关系。这样就可以利用相应分析来详细的研究这三个因子之间的关系。2.在相应分析的主对话框中,我们以在相应分析的主对话框中,我们以factor1和和factor2为例说为例说明。设置好类目(图明。设置好类目(图8.9),在),在Model子对话框中仍然选择维子对话框中仍然选择维数数2,其他设置
31、不变,点击,其他设置不变,点击OK后,就得到相应分析的结果。后,就得到相应分析的结果。图图8.9 相应分析主界面相应分析主界面(二)结果分析:(二)结果分析:n这里仅列出相应分析表(表这里仅列出相应分析表(表8.11)、总览表(表)、总览表(表8.12)以及)以及相应分析图(图相应分析图(图8.10),其余图表的分析与前一例题类似。),其余图表的分析与前一例题类似。表表8.11 列联表列联表表表8.12 总览表总览表 n从表从表8.12中可以看出,卡方检验是显著相关的,因此相应分中可以看出,卡方检验是显著相关的,因此相应分析是有意义的,而且只需要两个公共因子就可以解释析是有意义的,而且只需要两
32、个公共因子就可以解释92.7%的总惯量。所以使用二维图就可以充分的反映行列变量之间的总惯量。所以使用二维图就可以充分的反映行列变量之间的关系了。在图的关系了。在图8-10上可以发现,规模因子为上可以发现,规模因子为1和和5,个股价,个股价值因子为值因子为5,这表明,这表明“小股票小股票”和和“大股票大股票”都可能实现最都可能实现最高的个股价值,并且高的个股价值,并且“小股票小股票”似乎更有可能。而股票规模似乎更有可能。而股票规模因子中略高于平均水平的取值为因子中略高于平均水平的取值为3,4,这两个档次较为接近可,这两个档次较为接近可以将其合并为一个档次,相应的个股价值因子也略高于平均以将其合并
33、为一个档次,相应的个股价值因子也略高于平均水平。水平。n读者应该可以发现相应分析实际是对两组高维空间的点的二读者应该可以发现相应分析实际是对两组高维空间的点的二维投影进行分析。有时在高维空间中相隔很近的点投影后却维投影进行分析。有时在高维空间中相隔很近的点投影后却显的很远,因此有时需要进一步分析每个类目对公共因子的显的很远,因此有时需要进一步分析每个类目对公共因子的贡献大小。同时相应分析主要是建立在图形分析的基础上,贡献大小。同时相应分析主要是建立在图形分析的基础上,而没有给出足够充分的统计量来度量这种相关程度,因此相而没有给出足够充分的统计量来度量这种相关程度,因此相应分析的结果带有一定的主观性。应分析的结果带有一定的主观性。图图8.10 二维相应分析图二维相应分析图 本章结束本章结束