《第九讲对应分析优秀PPT.ppt》由会员分享,可在线阅读,更多相关《第九讲对应分析优秀PPT.ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第九讲对应分析第一页,本课件共有83页n对应分析对应分析(correspondence analysis)是是用于寻求列联表的行和列用于寻求列联表的行和列之间联系的一种低维图形表示法之间联系的一种低维图形表示法,它可以从直觉上揭示出同一分类,它可以从直觉上揭示出同一分类变量的各个类别之间的差异,以及不同分类变量各个类别之间的对变量的各个类别之间的差异,以及不同分类变量各个类别之间的对应关系。应关系。n在对应分析中,列联表的每一行对应(通常是二维)图中的一在对应分析中,列联表的每一行对应(通常是二维)图中的一点,每一列也对应同一图中的一点。点,每一列也对应同一图中的一点。本质上,这些点都是列联本
2、质上,这些点都是列联表的各行各列向一个二维欧式空间的投影,这种投影最大限度地表的各行各列向一个二维欧式空间的投影,这种投影最大限度地保持了各行(或各列)之间的关系保持了各行(或各列)之间的关系。n对应分析是由法国人对应分析是由法国人Benzecri于于1970年提出的,起初在法国和日年提出的,起初在法国和日本最为流行,然后引入美国。本最为流行,然后引入美国。第二页,本课件共有83页 中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的名中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的名字,为此专门委托了当地的策划咨询公司,取了一个名字字,为此专门委托了当地的策划咨询公司,取了一个名字“
3、波澜波澜”。一个好的名字至少应该满足两个条件:一个好的名字至少应该满足两个条件:1)会使消费者联想到正确的产品)会使消费者联想到正确的产品“纯水纯水”;2)会会使使消消费费者者产产生生与与正正确确产产品品密密切切相相关关的的联联想想,如如“纯纯净净”、“清爽清爽”等。等。后后来来中中美美纯纯水水有有限限公公司司委委托托调调查查统统计计研研究究所所,进进行行了了一一次次全全面面的的市市场场研研究究,在在调调查查中中还还包包括括简简单单的的名名称称测测试试。调调查查的的代代码码和含义如下:和含义如下:起名为起名为“波澜波澜”恰当吗恰当吗第三页,本课件共有83页代码代码含义含义代码代码含义含义代码代
4、码含义含义Name1Name1玉泉玉泉Product1Product1雪糕雪糕Feel1Feel1清爽清爽Name2Name2雪源雪源Product2Product2纯水纯水Feel2Feel2甘甜甘甜Name3Name3春溪春溪Product3Product3碳酸饮料碳酸饮料Feel3Feel3欢快欢快Name4Name4期望期望Product4Product4果汁饮料果汁饮料Feel4Feel4纯净纯净Name5Name5波澜波澜Product5Product5保健食品保健食品Feel5Feel5安闲安闲Name6Name6天山绿天山绿Product6Product6空调空调Feel6Fe
5、el6个性个性Name7Name7中美纯中美纯Product7Product7洗衣机洗衣机Feel7Feel7兴奋兴奋Name8Name8雪浪花雪浪花Product8Product8毛毯毛毯Feel8Feel8高档高档第四页,本课件共有83页第五页,本课件共有83页对应分析图Dimensionl第六页,本课件共有83页 由由直直观观图图可可以以看看出出,“波波澜澜”(Name5)与与“洗洗衣衣机机”(Product7)产产品品相相联联系系,引引起起的的感感觉觉是是“兴兴奋奋”,因因此此“波波澜澜”不不是是合合适适的的纯纯净净水水品品牌牌名名 称称。中中 美美 纯纯 水水 公公 司司 的的 产产
6、 品品 是是“纯纯 水水”(Product2),如如果果想想要要使使该该名名称称给给人人们们一一种种“纯纯 净净”(Feel4)的的 感感 觉觉,那那 么么“中中 美美 纯纯”(Name7)将将是是最最好好的的商商品品名名称称。如如果果想想要要使使该该名名称称给给人人们们一一种种“清清爽爽”(Feel1)的的感感觉觉,那那么么“玉玉泉泉”(Name1)将)将是最好的商品名称。是最好的商品名称。第七页,本课件共有83页产地产地 1=American 2=Japanese 3=European;轿车的尺寸轿车的尺寸 1=Small 2=Medium 3=Large;车车型型 1=Family 2=
7、Sporty 3=Work;拥有方式拥有方式 1=Own 2=Rent;车主的性别车主的性别 1=Male 2=Female;收入收入 1=1 Income 2=2 Incomes;婚姻状况婚姻状况 1=Single with Kids 2=Married with Kids 3=Single 4=Married;车主的车型及车主特征车主的车型及车主特征第八页,本课件共有83页第九页,本课件共有83页第十页,本课件共有83页从对应从对应图可以看图可以看出,已婚出,已婚带孩子和带孩子和拥有美国拥有美国车存在一车存在一定的关系;定的关系;单身与日单身与日本车有关本车有关系。系。第十一页,本课件共有
8、83页第十二页,本课件共有83页 图中的右上象限表明图中的右上象限表明“单身单身”、“租用的租用的”、“一一项收入项收入”和和“单身带孩子单身带孩子”有关系;在右下象限有关系;在右下象限“跑车跑车”、“小型小型”和和“日本车日本车”有关;在左下象限表明有关;在左下象限表明“已已婚婚”、“自己的自己的”、“两项收入两项收入”和和“女性女性”有关系;有关系;左上象限表明左上象限表明“已婚带孩子已婚带孩子”、和拥有一辆、和拥有一辆“大型大型”“美国美国”产产“家用车家用车”相对应。这些信息对于市场调研部相对应。这些信息对于市场调研部门确定广告的宣传对象很有用。门确定广告的宣传对象很有用。第十三页,本
9、课件共有83页7.1 列联表及列联表分析列联表及列联表分析一、列联表一、列联表二、对应矩阵二、对应矩阵三、行、列轮廓三、行、列轮廓第十四页,本课件共有83页列联表列联表(contingency table):综合了两个变量的:综合了两个变量的联合分布表,同时汇总两个变量的数据的方法。联合分布表,同时汇总两个变量的数据的方法。又称交叉分组表(又称交叉分组表(crosstabulation)家庭状况家庭状况青少年行为青少年行为犯罪犯罪未犯罪未犯罪破裂破裂14645和好和好334499第十五页,本课件共有83页一、列联表一、列联表第十六页,本课件共有83页 其中,是第 行、第 列类别组合的频数,;为
10、第 行的频数之和,;为第 列的频数之和,;为所有类别组合的频数总和。第十七页,本课件共有83页二、对应矩阵二、对应矩阵这里,这里,显然有显然有第十八页,本课件共有83页 称 为对应矩阵。将对应矩阵表中的最后一列用 表示,即 其中 是元素均为1的 维向量,最后一行用 表示,即 其中 是元素均为1的 维向量,向量 和 的元素有时称为行和列密度(masses)。第十九页,本课件共有83页三、行、列独立的检验 在列联表中,检验行变量和列变量相互独立假设的统计量为 当独立性的原假设为真,且样本容量 充分大,期望频数 时,近似服从自由度为 的卡方分布。拒绝规则为 若 ,则拒绝独立性的原假设,其中 是 的上
11、分位点。第二十页,本课件共有83页 例例 某某医医师师研研究究用用兰兰芩芩口口服服液液与与银银黄黄口口服服液液治治疗疗慢慢性性咽咽炎炎疗疗效效有有无无差差别别,将将病病情情相相似似的的8080名名患者随机分成两组,分别用两种药物治疗,患者随机分成两组,分别用两种药物治疗,第二十一页,本课件共有83页药物药物疗效疗效合计合计有效有效无效无效兰芩口服液兰芩口服液41(36.56)4(8.44)45(固定值固定值)银黄口服液银黄口服液24(28.44)11(6.56)35(固定值固定值)合计合计651580慢性咽炎两种药物疗效资料慢性咽炎两种药物疗效资料第二十二页,本课件共有83页处理处理属性属性合
12、计合计阳性阳性阴性阴性1 组组A11(T11)A12(T12)n1(固定值固定值)2 组组A21(T21)A22(T22)n2(固定值固定值)合计合计m1m2n完全随机设计下两组频数分布的四格表完全随机设计下两组频数分布的四格表第二十三页,本课件共有83页1.建立检验假设并确定检验水准建立检验假设并确定检验水准2.H0:两药的有效概率相同,两药的有效概率相同,1=23.H1:两药的有效概率不同,两药的有效概率不同,12 =0.054.2.计计算算检检验验统统计计量量:H0成成立立时时,两两组组有有效效概概率率相相同同,均均近近似似地地等等于于合合并并估估计计的的有有效效概概率率,由由此此得得到
13、到四四格格表表中每一格的理论数,中每一格的理论数,第二十四页,本课件共有83页自由度为:自由度为:=(=(行数行数-1)(-1)(列数列数-1)=(2-1)(2-1)=1-1)=(2-1)(2-1)=13.确定确定P值值 查附表查附表84.结论:按结论:按=0.05水准,拒绝水准,拒绝H0,接受,接受H1,两样本频率,两样本频率的差别有统计学意义。可以认为,兰芩口服液和银黄口的差别有统计学意义。可以认为,兰芩口服液和银黄口服液的总体有效概率不同。前者服液的总体有效概率不同。前者(91.1%)高于后者高于后者(68.6%).第二十五页,本课件共有83页7.2 对应分析的基本理论对应分析的基本理论
14、 一、有关概念二、对应分析的基本理论第二十六页,本课件共有83页1、行、列轮廓、行、列轮廓n第 行轮廓:其各元素之和等于1,即 。n第 列轮廓:其各元素之和等于1,即 。第二十七页,本课件共有83页行轮廓矩阵 其中 。第二十八页,本课件共有83页列轮廓矩阵 其中 。第二十九页,本课件共有83页 可见,可以表示成各列轮廓的加权平均。类似地,即 可以表示成各行轮廓的加权平均。第三十页,本课件共有83页例例 将由个人组成的样本按心理健康状况与社会经济状况进行交叉分类,分类结果见表9.1.3。第三十一页,本课件共有83页 将表9.1.3中的数据除以,得到对应矩阵,列于表9.1.4中。表9.1.4给出的
15、行密度和列密度向量为第三十二页,本课件共有83页 行轮廓矩阵为 列轮廓矩阵为第三十三页,本课件共有83页两个马赛克图两个马赛克图 对心理健康的每一种状况,A、B、C、D、E五个小方块的宽度显示了行轮廓,0、1、2、3四种心理健康状况的小方块高度显示了行密度。第三十四页,本课件共有83页 对社会经济的每一种状况,0、1、2、3四个小方块的高度显示了列轮廓,A、B、C、D、E五种社会经济状况的小方块宽度显示了列密度。第三十五页,本课件共有83页2、行(列)点之间的距离行(列)点之间的距离 如果两个行(列)点接近,则表明相应的两个行(列)轮廓是类似的;反之,如果两个行(列)点远离,则表明相应的两个行
16、(列)轮廓是非常不同的。因此,引入距离来分别描述各种状态之间的接近程度。需要指出的是,行点与列点之间并没有直接的距离关系。第三十六页,本课件共有83页 将每一行视为将每一行视为P P维空间维空间中的一个样本点,每个样中的一个样本点,每个样本点的坐标是个变量在该本点的坐标是个变量在该样本点的相对比例。经过样本点的相对比例。经过这个变换后对这个变换后对n n个样本的个样本的研究就变成了对研究就变成了对n n个样本个样本点的相对关系的研究。点的相对关系的研究。这里只对行做详细说明这里只对行做详细说明第三十七页,本课件共有83页 任意两个样本任意两个样本 与与 之间的距离:之间的距离:消除变量消除变量
17、的数量级的数量级加权距离第三十八页,本课件共有83页 等价于我们有了一个新的矩阵:等价于我们有了一个新的矩阵:第三十九页,本课件共有83页 类似的,可将类似的,可将p p个变量看成个变量看成n n为空间的点,为空间的点,按照同样的方法即可得到两个变量间的加按照同样的方法即可得到两个变量间的加权距离:权距离:第四十页,本课件共有83页也即是等价于我们有了一个新的矩阵:也即是等价于我们有了一个新的矩阵:第四十一页,本课件共有83页3、总惯量、总惯量 总惯量还可以行轮廓和列轮廓的形式表达如下:第四十二页,本课件共有83页 称为第 行轮廓 到行轮廓中心 的卡方()距离,它可看作是一个加权的平方欧氏距离
18、。同样,是第 列轮廓 到列轮廓中心 的卡方距离。故总惯量可看成是行轮廓到其中心的卡方距离的加权平均行轮廓到其中心的卡方距离的加权平均,也可看成是列轮廓到其中心的卡方距离的加权平均。列轮廓到其中心的卡方距离的加权平均。它它既度量了行轮廓之间的总变差,也度量了列轮廓之间的总既度量了行轮廓之间的总变差,也度量了列轮廓之间的总变差。变差。其中第四十三页,本课件共有83页 对应分析就是在总惯量信息损失最小的前提下,简化数据结构以反映量属性变量之间的相关系数。实际上,总惯量的概念类似于主成分分析或因子分析中总方差总和的概念。第四十四页,本课件共有83页?样本与变量间的关系样本与变量间的关系 要通过样本来获
19、得变量的观测值,反之要通过样本来获得变量的观测值,反之又要通过变量来对样本进行刻画和解释。又要通过变量来对样本进行刻画和解释。3、对应分析的基本理论、对应分析的基本理论第四十五页,本课件共有83页 对应分析是将对应分析是将R型因子分析与型因子分析与Q型因子分析结合起来进型因子分析结合起来进行统计分析的统计方法。行统计分析的统计方法。对变量进行因子分析称对变量进行因子分析称R型因子分析,对样本进行因型因子分析,对样本进行因子分析称子分析称Q型因子分析型因子分析 对应分析从对应分析从R型因子分析出发,而直接获得型因子分析出发,而直接获得Q型因子的型因子的分析结果。分析结果。根据根据R型和型和Q型分
20、析的内在联系,将变量和指标同时反型分析的内在联系,将变量和指标同时反映到相同坐标轴的一张图形上,映到相同坐标轴的一张图形上,旨在以简洁、明了的方式旨在以简洁、明了的方式揭示属性变量之间及属性变量各种状态之间的相关关系。揭示属性变量之间及属性变量各种状态之间的相关关系。便便 于对问题分析。于对问题分析。第四十六页,本课件共有83页对应分析提供三个方面的信息:对应分析提供三个方面的信息:指标之间的信息指标之间的信息样本之间的信息样本之间的信息指标与样本之间的信息指标与样本之间的信息这些关系是通过作图来表示的。这些关系是通过作图来表示的。第四十七页,本课件共有83页样本数据样本数据第四十八页,本课件
21、共有83页第四十九页,本课件共有83页概率矩阵概率矩阵第五十页,本课件共有83页 i=1,2,n称为称为n个个p维空间中样本点维空间中样本点,研究两个样本点研究两个样本点K,L之间的欧氏距离。之间的欧氏距离。第五十一页,本课件共有83页加权距离,可以消除数量级的影响加权距离,可以消除数量级的影响,第五十二页,本课件共有83页 可以理解成可以理解成n个样本点第个样本点第 i个样本的座标变为个样本的座标变为 i=1,2,n两个样本点两个样本点K,L的距离为的距离为第五十三页,本课件共有83页 同理同理从列的方向看从列的方向看,可以将样本矩阵中的列看可以将样本矩阵中的列看成是成是 n维空间中的点,变
22、量维空间中的点,变量Xi列为列为第五十四页,本课件共有83页设两个变量设两个变量Xi与与Xj的距离为的距离为加权距离,可以消除数量级的影响加权距离,可以消除数量级的影响,第五十五页,本课件共有83页 矩阵变为矩阵变为求各列的加权平均值求各列的加权平均值第五十六页,本课件共有83页这是按概率加权平均这是按概率加权平均因为因为变量变量均值均值,由于由于第五十七页,本课件共有83页因为因为 协方差公式为协方差公式为所以从矩阵所以从矩阵第五十八页,本课件共有83页两个变量两个变量Xi,Xj的协方差的协方差P个变量的协方差个变量的协方差第五十九页,本课件共有83页第六十页,本课件共有83页第六十一页,本
23、课件共有83页第六十二页,本课件共有83页类似对变量的方法类似对变量的方法,对样本点好可得协方差矩阵对样本点好可得协方差矩阵A与与B通过通过Z矩阵联系起来了矩阵联系起来了,存在对应关系存在对应关系A与与B的非零特征根相同的非零特征根相同第六十三页,本课件共有83页因为有因为有两边右乘两边右乘Z有相同的特征根有相同的特征根第六十四页,本课件共有83页对前两个因子载荷作图。对前两个因子载荷作图。对对A进行因子分析,求得因子载荷矩阵进行因子分析,求得因子载荷矩阵A=ZZ第六十五页,本课件共有83页对前两个因子载荷对前两个因子载荷 作图。作图。B=ZZ对对B进行因子分析,求得因子载荷矩阵进行因子分析,
24、求得因子载荷矩阵第六十六页,本课件共有83页 我们知道因子载荷矩阵的含义是原始数我们知道因子载荷矩阵的含义是原始数据与公共因子之间的相关系数,所以如果我据与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因们构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面子的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成上的点,在坐标系中绘制散点图,则构成对对应图应图。对应图对应图第六十七页,本课件共有83页 某地环境检测部门对该地所属某地环境检测部门对该地所属8个地区的个地区的大气污染状况进行了系统的的检测,每天大气污染状况进行了系统的
25、的检测,每天4次同时在各个地区抽取大气样品,则定其中次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二氧化硫、碳的氯、硫化氢、二氧化硫、碳4、环氧氯丙、环氧氯丙烷、环已烷烷、环已烷6种气体的浓度。数据资料略。种气体的浓度。数据资料略。第六十八页,本课件共有83页特征根贡献率(%)累积贡献率(%)10.5066870.0070.0020.1221316.8786.8730.056587.8294.69第六十九页,本课件共有83页R型因子分析的载荷F1F20.13831-0.043850.203330.026500.11003-0.019850.21754-0.186870.217200.28
26、831-0.582750.03279Q型因子分析的载荷G1G20.10599-0.023540.15369-0.061640.16284-0.009280.223880.223770.15853-0.19307-0.561530.019000.16656-0.106640.164290.13644第七十页,本课件共有83页 在同一个直角坐标系中作出两种因子的在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。载荷图,这种图称为对应图。第七十一页,本课件共有83页-0.20-0.15-0.10-0.050.000.050.100.150.200.250.30-0.6-0.5-0.4-0.
27、3-0.2-0.10.00.10.20.3变量变量样品样品对应图对应图第七十二页,本课件共有83页 由图我们可以看出,全部变量与样品分为3类。每一类聚合一些变量和样品。第一类:聚合了环氧氯丙烷X5和D和H两个地区,表明D和H两个地区主要大气污染物为环氧氯丙烷。第二类:包含变量X1,X2,X3,X4和样品A,B,C,E和G地区,这5个地区的主要污染物是氯、硫化氢、二氧化硫、碳4。第三类:包含X6和地区F,该地区的主要污染物是环已烷。第七十三页,本课件共有83页生活自理能力完全自理部分自理不能自理合计合计自评健康状况很好129148151好931146961173一般66011674850差251
28、10481436很差1172341没回答15132452合计合计19974003062703例:例:北京老龄化研究数据(北京老龄化研究数据(spss)第七十四页,本课件共有83页写成能对应分析数的据写成能对应分析数的据第七十五页,本课件共有83页SPSS数据输入变量设置(做分析之前要加上权重做分析之前要加上权重data-wight case-选人数选人数)第七十六页,本课件共有83页对应分析对应分析 correspondence analysis第七十七页,本课件共有83页选择行变量,定义其取值范围选择行变量,定义其取值范围16,再,再update第七十八页,本课件共有83页第七十九页,本课件共有83页维度奇异值 惯量 卡方P值惯量比例奇异值是惯量(特征值)的平方根。惯量用于说明对应分析奇异值是惯量(特征值)的平方根。惯量用于说明对应分析各个维度的结果能够解释列联表中两个变量联系的程度。第各个维度的结果能够解释列联表中两个变量联系的程度。第一维度可解释总信息的一维度可解释总信息的92.5%第八十页,本课件共有83页维度的分维度的分值值边缘概率边缘概率第八十一页,本课件共有83页第八十二页,本课件共有83页第八十三页,本课件共有83页