《典型相关分析研优秀课件.ppt》由会员分享,可在线阅读,更多相关《典型相关分析研优秀课件.ppt(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、典型相关分析研第1页,本讲稿共26页两个随机变量两个随机变量Y Y与与X X 简单相关系数简单相关系数简单相关系数简单相关系数一个随机变量一个随机变量Y Y与一组随机变量与一组随机变量X1,X2,X1,X2,Xp ,Xp 复相关系数复相关系数复相关系数复相关系数(多重相多重相多重相多重相关关关关)一组随机变量一组随机变量Y1Y1,Y2Y2,YqYq与另一组随机变量与另一组随机变量X1X1,X2X2,Xp Xp 典型相关系数典型相关系数典型相关系数典型相关系数第2页,本讲稿共26页典型相关典型相关是研究两组变量之间相关性两组变量之间相关性的一种统计分析方法。也是一种降维技术。由Hotelling
2、(1935,1936)最早提出,Cooley and Lohnes(1971)、Kshirsagar(1972)和 Mardia,Kent,and Bibby(1979)推动了它的应用。第一节第一节 典型相关分析的基本思想典型相关分析的基本思想第3页,本讲稿共26页典型相关典型相关是简单相关、多重相关的是简单相关、多重相关的推广推广;或者说简单相关;或者说简单相关系数、复相关系数是典型相关系数的系数、复相关系数是典型相关系数的特例特例。例:收集了某年某省男生例:收集了某年某省男生(1922岁岁)的资料,欲研究的资料,欲研究形态指标与机能指标间的相关性。形态指标与机能指标间的相关性。形态指标形态
3、指标:身高、坐高、体重、胸围、肩宽、盆骨宽;身高、坐高、体重、胸围、肩宽、盆骨宽;机能指标机能指标:脉搏、收缩压、舒张压、肺活量。脉搏、收缩压、舒张压、肺活量。第4页,本讲稿共26页典型相关分析示意图典型相关分析示意图 X1Y1Y2Y3Y4Y5X2X3X4X5X6XYU1U2U3U4U5V1V2V3V4V5CanR1CanR2CanR3CanR4CanR5第5页,本讲稿共26页典型相关分析典型相关分析(canonical correlation analysis):为了研究两组变量之间的相互:为了研究两组变量之间的相互关系,分别从两组变量中关系,分别从两组变量中提取综合变量提取综合变量(为(为
4、两个变量组中各变量的线性组合),并两个变量组中各变量的线性组合),并利用利用各综合变量之间的相关性各综合变量之间的相关性来反映来反映两组指标之两组指标之间整体相关性间整体相关性的一种多元统计分析方法。的一种多元统计分析方法。第6页,本讲稿共26页第二节第二节 典型相关分析的数学模型典型相关分析的数学模型 设有两组变量为设有两组变量为X X1 1,X,X2 2,X,Xp p和和Y Y1 1,Y,Y2 2,Y,Yq q,采用主成分思想寻找综合变量对即典型典型(相相关关)变量变量(Ui,Vi):第7页,本讲稿共26页8典型相关变量对典型相关变量对与与典型相关系数典型相关系数:在典型相关分析中,分别从
5、两组原始变量中提取的能反映两组原始变量在典型相关分析中,分别从两组原始变量中提取的能反映两组原始变量间整体相关信息的综合变量称为间整体相关信息的综合变量称为典型相关变量典型相关变量,典型相关变量是,典型相关变量是成对出成对出现现的,并且是按其反映两组原始变量间整体相关信息量的大小排序的,并且是按其反映两组原始变量间整体相关信息量的大小排序的,如的,如U U1 1、V V1 1之间的相关系数最大,则称之间的相关系数最大,则称U U1 1、V V1 1 为第一对典型相关变为第一对典型相关变量,它们之间的相关系数称为量,它们之间的相关系数称为第一典型相关系数第一典型相关系数,类似地有第二,类似地有第
6、二对,第三对,对,第三对,第,第i i对典型变量和第二、第三,对典型变量和第二、第三,第,第i i典型相关系典型相关系数。数。第8页,本讲稿共26页典型相关变量的性质:典型相关变量的性质:第9页,本讲稿共26页10即:即:同一组指标的各典型变量同一组指标的各典型变量(Ui与与Uj)(j=1,2,i-1)之间互不相关;)之间互不相关;不同组指标的典型变量不同组指标的典型变量(Ui与与j)(ij)之间互不之间互不相关;相关;各典型变量各典型变量Ui与与j的方差均为;的方差均为;第10页,本讲稿共26页11第三节第三节 典型相关变量及典型相关系数的求法典型相关变量及典型相关系数的求法(了解)(了解)
7、1.1.对各原始指标数据进行对各原始指标数据进行标准化标准化。2.2.求出求出X X,Y Y的相关矩阵的相关矩阵XXXX,YYYY及及X X与与Y Y的相关矩阵的相关矩阵XY XY。3.3.求出所有非零根,进而求得各求出所有非零根,进而求得各典型相关系数典型相关系数,并,并按大小顺序排列按大小顺序排列。4.4.取最大根取最大根1 1,进而求得非零解,进而求得非零解a a1 1 (a(a1111,a,a12 12,a,a1p 1p),b b1 1 (b b1111,b,b12 12,b,b1q 1q)5.5.写出第一对典型相关变量。写出第一对典型相关变量。6.6.求出第求出第i i对典型相关变量
8、。对典型相关变量。第11页,本讲稿共26页12第四节第四节 典型相关系数的假设检验典型相关系数的假设检验如果前如果前m m个典型相关系数在水准个典型相关系数在水准下有统计学意义,而其余的典下有统计学意义,而其余的典型相关系数都不具有统计学意义,则可以认为型相关系数都不具有统计学意义,则可以认为m m对典型相关变量对典型相关变量已经把已经把X X与与Y Y之间存在的全部相关信息进行了分解并提取出来了。之间存在的全部相关信息进行了分解并提取出来了。如果第一典型相关系数如果第一典型相关系数1 1无统计学意义无统计学意义,则可认为两组指标,则可认为两组指标X X与与Y Y之间互不相关,之间互不相关,不
9、能进行典型相关分析不能进行典型相关分析。在实际应用中,在实际应用中,通常只取第一对典型相关变量通常只取第一对典型相关变量,因为第一对相关,因为第一对相关变量的专业意义较为明显,且足以表达两组指标间的相关性。变量的专业意义较为明显,且足以表达两组指标间的相关性。第12页,本讲稿共26页13第五节第五节 应用实例应用实例 例例21-1 21-1 为了探讨小学生的生长发育指标与身体素质的相互关系,为了探讨小学生的生长发育指标与身体素质的相互关系,某市对小学生的体质进行调查。先仅对某市对小学生的体质进行调查。先仅对8484例例1010岁男孩的四项生长岁男孩的四项生长发育指标:肺活量、身高、体重、胸围与
10、四项反映身体素质的发育指标:肺活量、身高、体重、胸围与四项反映身体素质的指标:指标:50m50m跑、跳高、跳远、实心球掷远进行典型相关分析。跑、跳高、跳远、实心球掷远进行典型相关分析。编编号号肺活量肺活量X1(L)身高身高X2(cm)体重体重X3(kg)胸围胸围X4(cm)50m50m跑跑Y1(s)跳高跳高Y2(cm)跳远跳远Y3(m)实心球掷实心球掷远远Y4(m)11210120.123.861.010.2662.012.7321210120.723.459.811.3681.922.7131040121.222.959.010.1671.922.60831580136.632.367.21
11、0.3872.664.04842370147.438.873.010.8912.824.38第13页,本讲稿共26页14SPSS的实现:的实现:1.打开例打开例21-1SPSS数据文件数据文件2.通通过过FileNewDateSyntax打打开开一一个个空空白白文文件件,再再在在其其中键入下面命令行:中键入下面命令行:include C:Program FilesSPSScanonical correlation.sps.cancorr set1=x1 to x4/set2=y1 to y4/.3.再点击一个向右的三角形图标再点击一个向右的三角形图标(运行目前程序,运行目前程序,Run cur
12、rent),就可以得到所需结果了。,就可以得到所需结果了。4.还可以把还可以把Syntax1.sps另以其他名字(比如另以其他名字(比如tv.sps)存入一)存入一个文件夹。下次使用时就可以通过个文件夹。下次使用时就可以通过FileOpenSyntax来打来打开这个文件了。开这个文件了。第14页,本讲稿共26页151.打开SPSS数据文件SPSSSPSS操作操作第15页,本讲稿共26页16SPSS操作2.编辑语法编辑语法第16页,本讲稿共26页17编辑语法窗口第17页,本讲稿共26页18结果结果各典型相关系数依次为:各典型相关系数依次为:1=0.8861=0.886,2=0.2792=0.27
13、9,3=0.2793=0.279,4=0.0384=0.038。并由检验可知,只有第一典型相关系数有统。并由检验可知,只有第一典型相关系数有统计学意义。因此,只取第一对典型相关变量。计学意义。因此,只取第一对典型相关变量。第18页,本讲稿共26页19原始的U典型相关变量原始的第一对典型相关变量为:原始的V典型相关变量原始的第一对典型相关变量为:第19页,本讲稿共26页20标准化的U典型相关变量标准化的V典型相关变量标准化的的第一对典型相关变量为:第20页,本讲稿共26页21 由标准化的典型相关变量可得:U1主要受X2和X4的影响,V1则在Y2和Y4上的权重较大。说明个子较为高大的男孩在跳高和实
14、心球掷远这两个项目上的成绩较好。V第二组原始指标第二组原始指标50m跑Y1跳高Y2跳远Y3实心球Y4典型相关典型相关0.8860.886身高X2体重X3胸围X4肺活量X1U第一组原始指标第一组原始指标0.4360.4800.6610.301第21页,本讲稿共26页22对应分析第22页,本讲稿共26页23对应分析:对应分析:简单对应分析:简单对应分析:两个分类变量间的类别联系两个分类变量间的类别联系多重对应分析:多重对应分析:多个分类变量间的类别联系多个分类变量间的类别联系第23页,本讲稿共26页24表表1 3181 318例例COPDCOPD患者的患者的COPDCOPD分级与中医证候分布分级与
15、中医证候分布COPDCOPD分级分级肺气肺气虚虚脾气脾气虚虚肾阳肾阳虚虚阴阳阴阳两虚两虚肾阴肾阴虚虚痰浊痰浊证证血瘀血瘀证证141412122 20 00 04 40 0aa494925254 40 02 211119 9bb2626171715152 24 4171720201212141416167 75 57 72424例:某研究者为了研究例:某研究者为了研究COPD 病情分级与中医证候之间病情分级与中医证候之间的关系的关系,对对318 例不同程度的例不同程度的COPD 患者进行了中医证候患者进行了中医证候分布调查分布调查,结果见表结果见表1:第24页,本讲稿共26页25有统计学意义表明两变有统计学意义表明两变量之间有关联,可以进量之间有关联,可以进行对应分析行对应分析每个维度携每个维度携带的信息量带的信息量第25页,本讲稿共26页26第26页,本讲稿共26页