第九讲对应分析PPT讲稿.ppt

上传人:石*** 文档编号:43985108 上传时间:2022-09-20 格式:PPT 页数:83 大小:4.37MB
返回 下载 相关 举报
第九讲对应分析PPT讲稿.ppt_第1页
第1页 / 共83页
第九讲对应分析PPT讲稿.ppt_第2页
第2页 / 共83页
点击查看更多>>
资源描述

《第九讲对应分析PPT讲稿.ppt》由会员分享,可在线阅读,更多相关《第九讲对应分析PPT讲稿.ppt(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第九讲对应分析第1页,共83页,编辑于2022年,星期二n对应分析对应分析(correspondence analysis)是是用于寻求列联表的行和列之间联用于寻求列联表的行和列之间联系的一种低维图形表示法系的一种低维图形表示法,它可以从直觉上揭示出同一分类变量的各个,它可以从直觉上揭示出同一分类变量的各个类别之间的差异,以及不同分类变量各个类别之间的对应关系。类别之间的差异,以及不同分类变量各个类别之间的对应关系。n在对应分析中,列联表的每一行对应(通常是二维)图中的一点,在对应分析中,列联表的每一行对应(通常是二维)图中的一点,每一列也对应同一图中的一点。每一列也对应同一图中的一点。本质上

2、,这些点都是列联表的各行本质上,这些点都是列联表的各行各列向一个二维欧式空间的投影,这种投影最大限度地保持了各行各列向一个二维欧式空间的投影,这种投影最大限度地保持了各行(或各列)之间的关系(或各列)之间的关系。n对应分析是由法国人对应分析是由法国人Benzecri于于1970年提出的,起初在法国和日年提出的,起初在法国和日本最为流行,然后引入美国。本最为流行,然后引入美国。第2页,共83页,编辑于2022年,星期二 中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的中美纯水有限公司欲为其新推出的一种纯水产品起一个合适的名字,为此专门委托了当地的策划咨询公司,取了一个名字名字,为此专门委托

3、了当地的策划咨询公司,取了一个名字“波波澜澜”。一个好的名字至少应该满足两个条件:。一个好的名字至少应该满足两个条件:1)会使消费者联想到正确的产品)会使消费者联想到正确的产品“纯水纯水”;2)会会使使消消费费者者产产生生与与正正确确产产品品密密切切相相关关的的联联想想,如如“纯纯净净”、“清清爽爽”等。等。后后来来中中美美纯纯水水有有限限公公司司委委托托调调查查统统计计研研究究所所,进进行行了了一一次次全全面面的的市市场场研究,在调查中还包括简单的名称测试。调查的代码和含义如下:研究,在调查中还包括简单的名称测试。调查的代码和含义如下:起名为起名为“波澜波澜”恰当吗恰当吗第3页,共83页,编

4、辑于2022年,星期二代码代码含义含义代码代码含义含义代码代码含义含义Name1Name1玉泉玉泉Product1Product1雪糕雪糕Feel1Feel1清爽清爽Name2Name2雪源雪源Product2Product2纯水纯水Feel2Feel2甘甜甘甜Name3Name3春溪春溪Product3Product3碳酸饮料碳酸饮料Feel3Feel3欢快欢快Name4Name4期望期望Product4Product4果汁饮料果汁饮料Feel4Feel4纯净纯净Name5Name5波澜波澜Product5Product5保健食品保健食品Feel5Feel5安闲安闲Name6Name6天山绿

5、天山绿Product6Product6空调空调Feel6Feel6个性个性Name7Name7中美纯中美纯Product7Product7洗衣机洗衣机Feel7Feel7兴奋兴奋Name8Name8雪浪花雪浪花Product8Product8毛毯毛毯Feel8Feel8高档高档第4页,共83页,编辑于2022年,星期二第5页,共83页,编辑于2022年,星期二对应分析图Dimensionl第6页,共83页,编辑于2022年,星期二 由由直直观观图图可可以以看看出出,“波波澜澜”(Name5)与与“洗洗衣衣机机”(Product7)产产品品相相联联系系,引引起起的的感感觉觉是是“兴兴奋奋”,因因

6、此此“波波澜澜”不不是是合合适适的的纯纯净净水水品品牌牌名名称称。中中美美纯纯水水公公司司的的产产品品是是“纯纯水水”(Product2),如如果果想想要要使使该该名名称称给给人人们们一一种种“纯纯净净”(Feel4)的的感感觉觉,那那么么“中中美美纯纯”(Name7)将将是是最最好好的的商商品品名名称称。如如果果想想要要使使该该名名称称给给人人们们一一种种“清清爽爽”(Feel1)的的感感觉觉,那那么么“玉泉玉泉”(Name1)将)将是最好的商品名称。是最好的商品名称。第7页,共83页,编辑于2022年,星期二产地产地 1=American 2=Japanese 3=European;轿车的

7、尺寸轿车的尺寸 1=Small 2=Medium 3=Large;车车型型 1=Family 2=Sporty 3=Work;拥有方式拥有方式 1=Own 2=Rent;车主的性别车主的性别 1=Male 2=Female;收入收入 1=1 Income 2=2 Incomes;婚姻状况婚姻状况 1=Single with Kids 2=Married with Kids 3=Single 4=Married;车主的车型及车主特征车主的车型及车主特征第8页,共83页,编辑于2022年,星期二第9页,共83页,编辑于2022年,星期二第10页,共83页,编辑于2022年,星期二从对应从对应图可以

8、看出,图可以看出,已婚带孩子已婚带孩子和拥有美国和拥有美国车存在一定车存在一定的关系;单的关系;单身与日本车身与日本车有关系。有关系。第11页,共83页,编辑于2022年,星期二第12页,共83页,编辑于2022年,星期二 图中的右上象限表明图中的右上象限表明“单身单身”、“租用的租用的”、“一项收入一项收入”和和“单身带孩子单身带孩子”有关系;在右下象限有关系;在右下象限“跑车跑车”、“小型小型”和和“日本车日本车”有关;在左下象限表有关;在左下象限表明明“已婚已婚”、“自己的自己的”、“两项收入两项收入”和和“女性女性”有关系;左上象限表明有关系;左上象限表明“已婚带孩子已婚带孩子”、和拥

9、有一辆、和拥有一辆“大型大型”“美国美国”产产“家用车家用车”相对应。这些信息对相对应。这些信息对于市场调研部门确定广告的宣传对象很有用。于市场调研部门确定广告的宣传对象很有用。第13页,共83页,编辑于2022年,星期二7.1 列联表及列联表分析列联表及列联表分析一、列联表一、列联表二、对应矩阵二、对应矩阵三、行、列轮廓三、行、列轮廓第14页,共83页,编辑于2022年,星期二列联表列联表(contingency table):综合了两个变量的联:综合了两个变量的联合分布表,同时汇总两个变量的数据的方法。又合分布表,同时汇总两个变量的数据的方法。又称交叉分组表(称交叉分组表(crosstab

10、ulation)家庭状况家庭状况青少年行为青少年行为犯罪犯罪未犯罪未犯罪破裂破裂14645和好和好334499第15页,共83页,编辑于2022年,星期二一、列联表一、列联表第16页,共83页,编辑于2022年,星期二 其中,是第 行、第 列类别组合的频数,;为第 行的频数之和,;为第 列的频数之和,;为所有类别组合的频数总和。第17页,共83页,编辑于2022年,星期二二、对应矩阵二、对应矩阵这里,这里,显然有显然有第18页,共83页,编辑于2022年,星期二 称 为对应矩阵。将对应矩阵表中的最后一列用 表示,即 其中 是元素均为1的 维向量,最后一行用 表示,即 其中 是元素均为1的 维向

11、量,向量 和 的元素有时称为行和列密度(masses)。第19页,共83页,编辑于2022年,星期二三、行、列独立的检验 在列联表中,检验行变量和列变量相互独立假设的统计量为 当独立性的原假设为真,且样本容量 充分大,期望频数 时,近似服从自由度为 的卡方分布。拒绝规则为 若 ,则拒绝独立性的原假设,其中 是 的上分位点。第20页,共83页,编辑于2022年,星期二 例例 某某医医师师研研究究用用兰兰芩芩口口服服液液与与银银黄黄口口服服液液治治疗疗慢慢性性咽咽炎炎疗疗效效有有无无差差别别,将将病病情情相相似似的的8080名名患患者者随机分成两组,分别用两种药物治疗,随机分成两组,分别用两种药物

12、治疗,第21页,共83页,编辑于2022年,星期二药物药物疗效疗效合计合计有效有效无效无效兰芩口服液兰芩口服液41(36.56)4(8.44)45(固定值固定值)银黄口服液银黄口服液24(28.44)11(6.56)35(固定值固定值)合计合计651580慢性咽炎两种药物疗效资料慢性咽炎两种药物疗效资料第22页,共83页,编辑于2022年,星期二处理处理属性属性合计合计阳性阳性阴性阴性1 组组A11(T11)A12(T12)n1(固定值固定值)2 组组A21(T21)A22(T22)n2(固定值固定值)合计合计m1m2n完全随机设计下两组频数分布的四格表完全随机设计下两组频数分布的四格表第23

13、页,共83页,编辑于2022年,星期二1.建立检验假设并确定检验水准建立检验假设并确定检验水准2.H0:两药的有效概率相同,两药的有效概率相同,1=23.H1:两药的有效概率不同,两药的有效概率不同,12 =0.054.2.计计算算检检验验统统计计量量:H0成成立立时时,两两组组有有效效概概率率相相同同,均均近近似似地地等等于于合合并并估估计计的的有有效效概概率率,由由此此得得到到四四格格表表中中每一格的理论数,每一格的理论数,第24页,共83页,编辑于2022年,星期二自由度为:自由度为:=(=(行数行数-1)(-1)(列数列数-1)=(2-1)(2-1)=1-1)=(2-1)(2-1)=1

14、3.确定确定P值值 查附表查附表84.结论:按结论:按=0.05水准,拒绝水准,拒绝H0,接受,接受H1,两样本频率的差,两样本频率的差别有统计学意义。可以认为,兰芩口服液和银黄口服液的总体别有统计学意义。可以认为,兰芩口服液和银黄口服液的总体有效概率不同。前者有效概率不同。前者(91.1%)高于后者高于后者(68.6%).第25页,共83页,编辑于2022年,星期二7.2 对应分析的基本理论对应分析的基本理论 一、有关概念二、对应分析的基本理论第26页,共83页,编辑于2022年,星期二1、行、列轮廓、行、列轮廓n第 行轮廓:其各元素之和等于1,即 。n第 列轮廓:其各元素之和等于1,即 。

15、第27页,共83页,编辑于2022年,星期二行轮廓矩阵 其中 。第28页,共83页,编辑于2022年,星期二列轮廓矩阵 其中 。第29页,共83页,编辑于2022年,星期二 可见,可以表示成各列轮廓的加权平均。类似地,即 可以表示成各行轮廓的加权平均。第30页,共83页,编辑于2022年,星期二例例 将由个人组成的样本按心理健康状况与社会经济状况进行交叉分类,分类结果见表9.1.3。第31页,共83页,编辑于2022年,星期二 将表9.1.3中的数据除以,得到对应矩阵,列于表9.1.4中。表9.1.4给出的行密度和列密度向量为第32页,共83页,编辑于2022年,星期二 行轮廓矩阵为 列轮廓矩

16、阵为第33页,共83页,编辑于2022年,星期二两个马赛克图两个马赛克图 对心理健康的每一种状况,A、B、C、D、E五个小方块的宽度显示了行轮廓,0、1、2、3四种心理健康状况的小方块高度显示了行密度。第34页,共83页,编辑于2022年,星期二 对社会经济的每一种状况,0、1、2、3四个小方块的高度显示了列轮廓,A、B、C、D、E五种社会经济状况的小方块宽度显示了列密度。第35页,共83页,编辑于2022年,星期二2、行(列)点之间的距离行(列)点之间的距离 如果两个行(列)点接近,则表明相应的两个行(列)轮廓是类似的;反之,如果两个行(列)点远离,则表明相应的两个行(列)轮廓是非常不同的。

17、因此,引入距离来分别描述各种状态之间的接近程度。需要指出的是,行点与列点之间并没有直接的距离关系。第36页,共83页,编辑于2022年,星期二 将每一行视为将每一行视为P P维空间维空间中的一个样本点,每个样中的一个样本点,每个样本点的坐标是个变量在该本点的坐标是个变量在该样本点的相对比例。经过样本点的相对比例。经过这个变换后对这个变换后对n n个样本的个样本的研究就变成了对研究就变成了对n n个样本个样本点的相对关系的研究。点的相对关系的研究。这里只对行做详细说明这里只对行做详细说明第37页,共83页,编辑于2022年,星期二 任意两个样本任意两个样本 与与 之间的距离:之间的距离:消除变量

18、消除变量的数量级的数量级加权距离第38页,共83页,编辑于2022年,星期二 等价于我们有了一个新的矩阵:等价于我们有了一个新的矩阵:第39页,共83页,编辑于2022年,星期二 类似的,可将类似的,可将p p个变量看成个变量看成n n为空间的点,为空间的点,按照同样的方法即可得到两个变量间的加按照同样的方法即可得到两个变量间的加权距离:权距离:第40页,共83页,编辑于2022年,星期二也即是等价于我们有了一个新的矩阵:也即是等价于我们有了一个新的矩阵:第41页,共83页,编辑于2022年,星期二3、总惯量、总惯量 总惯量还可以行轮廓和列轮廓的形式表达如下:第42页,共83页,编辑于2022

19、年,星期二 称为第 行轮廓 到行轮廓中心 的卡方()距离,它可看作是一个加权的平方欧氏距离。同样,是第 列轮廓 到列轮廓中心 的卡方距离。故总惯量可看成是行轮廓到其中心的卡方距离的加权平均行轮廓到其中心的卡方距离的加权平均,也可看成是列轮廓到其中心的卡方距离的加权平均。列轮廓到其中心的卡方距离的加权平均。它既度量它既度量了行轮廓之间的总变差,也度量了列轮廓之间的总变差。了行轮廓之间的总变差,也度量了列轮廓之间的总变差。其中第43页,共83页,编辑于2022年,星期二 对应分析就是在总惯量信息损失最小的前提下,简化数据结构以反映量属性变量之间的相关系数。实际上,总惯量的概念类似于主成分分析或因子

20、分析中总方差总和的概念。第44页,共83页,编辑于2022年,星期二?样本与变量间的关系样本与变量间的关系 要通过样本来获得变量的观测值,反之又要通过样本来获得变量的观测值,反之又要通过变量来对样本进行刻画和解释。要通过变量来对样本进行刻画和解释。3、对应分析的基本理论、对应分析的基本理论第45页,共83页,编辑于2022年,星期二 对应分析是将对应分析是将R型因子分析与型因子分析与Q型因子分析结合起型因子分析结合起来进行统计分析的统计方法。来进行统计分析的统计方法。对变量进行因子分析称对变量进行因子分析称R型因子分析,对样本进行因型因子分析,对样本进行因子分析称子分析称Q型因子分析型因子分析

21、 对应分析从对应分析从R型因子分析出发,而直接获得型因子分析出发,而直接获得Q型因子的型因子的分析结果。分析结果。根据根据R型和型和Q型分析的内在联系,将变量和指标同时型分析的内在联系,将变量和指标同时反映到相同坐标轴的一张图形上,反映到相同坐标轴的一张图形上,旨在以简洁、明了的旨在以简洁、明了的方式揭示属性变量之间及属性变量各种状态之间的相关关方式揭示属性变量之间及属性变量各种状态之间的相关关系。系。便便 于对问题分析。于对问题分析。第46页,共83页,编辑于2022年,星期二对应分析提供三个方面的信息:对应分析提供三个方面的信息:指标之间的信息指标之间的信息样本之间的信息样本之间的信息指标

22、与样本之间的信息指标与样本之间的信息这些关系是通过作图来表示的。这些关系是通过作图来表示的。第47页,共83页,编辑于2022年,星期二样本数据样本数据第48页,共83页,编辑于2022年,星期二第49页,共83页,编辑于2022年,星期二概率矩阵概率矩阵第50页,共83页,编辑于2022年,星期二 i=1,2,n称为称为n个个p维空间中样本点维空间中样本点,研究两个样本点研究两个样本点K,L之间的欧氏距离。之间的欧氏距离。第51页,共83页,编辑于2022年,星期二加权距离,可以消除数量级的影响加权距离,可以消除数量级的影响,第52页,共83页,编辑于2022年,星期二 可以理解成可以理解成

23、n个样本点第个样本点第 i个样本的座标变为个样本的座标变为 i=1,2,n两个样本点两个样本点K,L的距离为的距离为第53页,共83页,编辑于2022年,星期二 同理同理从列的方向看从列的方向看,可以将样本矩阵中的列看成可以将样本矩阵中的列看成是是 n维空间中的点,变量维空间中的点,变量Xi列为列为第54页,共83页,编辑于2022年,星期二设两个变量设两个变量Xi与与Xj的距离为的距离为加权距离,可以消除数量级的影响加权距离,可以消除数量级的影响,第55页,共83页,编辑于2022年,星期二 矩阵变为矩阵变为求各列的加权平均值求各列的加权平均值第56页,共83页,编辑于2022年,星期二这是

24、按概率加权平均这是按概率加权平均因为因为变量变量均值均值,由于由于第57页,共83页,编辑于2022年,星期二因为因为 协方差公式为协方差公式为所以从矩阵所以从矩阵第58页,共83页,编辑于2022年,星期二两个变量两个变量Xi,Xj的协方差的协方差P个变量的协方差个变量的协方差第59页,共83页,编辑于2022年,星期二第60页,共83页,编辑于2022年,星期二第61页,共83页,编辑于2022年,星期二第62页,共83页,编辑于2022年,星期二类似对变量的方法类似对变量的方法,对样本点好可得协方差矩阵对样本点好可得协方差矩阵A与与B通过通过Z矩阵联系起来了矩阵联系起来了,存在对应关系存

25、在对应关系A与与B的非零特征根相同的非零特征根相同第63页,共83页,编辑于2022年,星期二因为有因为有两边右乘两边右乘Z有相同的特征根有相同的特征根第64页,共83页,编辑于2022年,星期二对前两个因子载荷作图。对前两个因子载荷作图。对对A进行因子分析,求得因子载荷矩阵进行因子分析,求得因子载荷矩阵A=ZZ第65页,共83页,编辑于2022年,星期二对前两个因子载荷对前两个因子载荷 作图。作图。B=ZZ对对B进行因子分析,求得因子载荷矩阵进行因子分析,求得因子载荷矩阵第66页,共83页,编辑于2022年,星期二 我们知道因子载荷矩阵的含义是原始数据我们知道因子载荷矩阵的含义是原始数据与公

26、共因子之间的相关系数,所以如果我们与公共因子之间的相关系数,所以如果我们构造一个平面直角坐标系,将第一公共因子构造一个平面直角坐标系,将第一公共因子的载荷与第二个公共因子的载荷看成平面上的载荷与第二个公共因子的载荷看成平面上的点,在坐标系中绘制散点图,则构成的点,在坐标系中绘制散点图,则构成对应对应图图。对应图对应图第67页,共83页,编辑于2022年,星期二 某地环境检测部门对该地所属某地环境检测部门对该地所属8个地区的个地区的大气污染状况进行了系统的的检测,每天大气污染状况进行了系统的的检测,每天4次同时在各个地区抽取大气样品,则定其中次同时在各个地区抽取大气样品,则定其中的氯、硫化氢、二

27、氧化硫、碳的氯、硫化氢、二氧化硫、碳4、环氧氯丙、环氧氯丙烷、环已烷烷、环已烷6种气体的浓度。数据资料略。种气体的浓度。数据资料略。第68页,共83页,编辑于2022年,星期二特征根贡献率(%)累积贡献率(%)10.5066870.0070.0020.1221316.8786.8730.056587.8294.69第69页,共83页,编辑于2022年,星期二R型因子分析的载荷F1F20.13831-0.043850.203330.026500.11003-0.019850.21754-0.186870.217200.28831-0.582750.03279Q型因子分析的载荷G1G20.1059

28、9-0.023540.15369-0.061640.16284-0.009280.223880.223770.15853-0.19307-0.561530.019000.16656-0.106640.164290.13644第70页,共83页,编辑于2022年,星期二 在同一个直角坐标系中作出两种因子的在同一个直角坐标系中作出两种因子的载荷图,这种图称为对应图。载荷图,这种图称为对应图。第71页,共83页,编辑于2022年,星期二-0.20-0.15-0.10-0.050.000.050.100.150.200.250.30-0.6-0.5-0.4-0.3-0.2-0.10.00.10.20.

29、3变量变量样品样品对应图对应图第72页,共83页,编辑于2022年,星期二 由图我们可以看出,全部变量与样品分为3类。每一类聚合一些变量和样品。第一类:聚合了环氧氯丙烷X5和D和H两个地区,表明D和H两个地区主要大气污染物为环氧氯丙烷。第二类:包含变量X1,X2,X3,X4和样品A,B,C,E和G地区,这5个地区的主要污染物是氯、硫化氢、二氧化硫、碳4。第三类:包含X6和地区F,该地区的主要污染物是环已烷。第73页,共83页,编辑于2022年,星期二生活自理能力完全自理部分自理不能自理合计合计自评健康状况很好129148151好931146961173一般66011674850差2511048

30、1436很差1172341没回答15132452合计合计19974003062703例:例:北京老龄化研究数据(北京老龄化研究数据(spss)第74页,共83页,编辑于2022年,星期二写成能对应分析数的据写成能对应分析数的据第75页,共83页,编辑于2022年,星期二SPSS数据输入变量设置(做分析之前要加上权重做分析之前要加上权重data-wight case-选人数选人数)第76页,共83页,编辑于2022年,星期二对应分析对应分析 correspondence analysis第77页,共83页,编辑于2022年,星期二选择行变量,定义其取值范围选择行变量,定义其取值范围16,再,再u

31、pdate第78页,共83页,编辑于2022年,星期二第79页,共83页,编辑于2022年,星期二维度奇异值 惯量卡方P值惯量比例奇异值是惯量(特征值)的平方根。惯量用于说明对应分析奇异值是惯量(特征值)的平方根。惯量用于说明对应分析各个维度的结果能够解释列联表中两个变量联系的程度。第各个维度的结果能够解释列联表中两个变量联系的程度。第一维度可解释总信息的一维度可解释总信息的92.5%第80页,共83页,编辑于2022年,星期二维度的分维度的分值值边缘概率边缘概率第81页,共83页,编辑于2022年,星期二第82页,共83页,编辑于2022年,星期二第83页,共83页,编辑于2022年,星期二

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁