《统计学相关分析.pptx》由会员分享,可在线阅读,更多相关《统计学相关分析.pptx(92页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2023/3/131 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭环境、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的因果联系,其内容分为相关分析和回归分析这两个大的方面。第1页/共92页2023/3/132第一节 变量之间的相互关系1.相关程度 完全相
2、关,指变量之间为函数关系;完全不相关指变量之间不存在任何依存关系,彼此独立。不完全相关介于两者之间。不完全相关是本章讨论的重点。由于数学手段上的局限性,统计学探讨的最多的是定距定距变量间能近似地表现为一条直线的线性相关。在统计中,对于线性相关,采用相关系数(记作r)这一指标来量度相关关系程度或强度。就线性相关来说,当r l时,表示为完全相关;当r=0时,表现为无相关或零相关;当0 r 1时,表现为不完全相关。第2页/共92页2023/3/133 2.相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变量的值也增加。例如,受教育水平越高找到高薪水工作的机会也越大。而负相关关系是
3、指一个变量的值增加时,另一变量的值却减少。例如,受教育水平越高,理想子女数目越少。要强调的是,只有定序以上测量层次的变量才分析相关方向,因为只有这些变量的值有高低或多少之分。至于定类变量,由于变量的值并无大小、高低之分,故定类变量与其他变量相关时就没有正负方向了。第3页/共92页2023/3/134 3.因果关系与对称关系 因果关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分:(1)两个变量有共变关系;(2)因变量的变化是由自变量的变化引起的;(3)两个变量的产生和变化有明确的时间顺序,前者称为自变量,后者称为因变量。表现为
4、对称关系的相关关系,互为根据,不能区分自变量和因变量,或者说自变量和因变量可以根据研究目的任意选定,例如身高和体重之间的关系。第4页/共92页2023/3/1354.单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元相关;三个或三个以上变量之间的关系称为复相关,亦称多元相关。五、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直线,称为直线相关或线性相关;如果关系近似地表现为一条曲线,则称为曲线相关或称为非线性相关。由于数学手段的局限性,我们以学习线性相关为主。在统计学中,通过分段处理线性相关也可以用于处理曲线相关。第5页/共92页2023/3/136第二节 定
5、类变量的相关分析本节内容:1、列联表2、削减误差比例3、系数4、系数第6页/共92页2023/3/1371.列联表 列联表,是按品质标志把两个变量的频数分布进行交互分类,由于表内的每一个频数都需同时满足两个变量的要求,所以列联表又称条件频数表。例如,某区调查了357名选民,考察受教育程度与投票行为之间的关系,将所得资料作成下表,便是一种关于频数的列联表。第7页/共92页2023/3/13822频数分布列联表的一般形式习惯上把因变量Y放在表侧,把自变量X放在表头。22列联表是最简单的交互分类表。rc列联表 r(row)、c(column)第8页/共92页2023/3/139 rc频数分布列联表的
6、一般形式第9页/共92页2023/3/1310自己志愿自己志愿自己志愿自己志愿知心朋友志愿知心朋友志愿知心朋友志愿知心朋友志愿总数总数总数总数快乐家快乐家快乐家快乐家庭庭庭庭理想工理想工理想工理想工作作作作增广见增广见增广见增广见闻闻闻闻快乐家庭快乐家庭快乐家庭快乐家庭28289 93 34040理想工作理想工作理想工作理想工作2 241417 75050增广见闻增广见闻增广见闻增广见闻2 24 44 41010总数总数总数总数323254541414100100第10页/共92页2023/3/1311两个边际分布:两个边际分布:第11页/共92页2023/3/1312 条件频数表中各频数因基
7、数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是rc相对频数分布列联表的一般形式。第12页/共92页2023/3/1313 rc相对频数分布列联表的一般形式第13页/共92页2023/3/1314 在相对频数分布列联表中,各数据为各分在相对频数分布列联表中,各数据为各分类类出现的相对频数出现的相对频数(或者频率或者频率)。将频数。将频数 化成相化成相对对频数频数 有两种做法:有两种做法:相对频数联合分布相对频数联合分布 两个边际分布两个边际分布 或或相对频数条件分布相对频数条件分布 或或第
8、14页/共92页2023/3/1315 rc相对频数联合分布列联表第15页/共92页2023/3/1316控制X,Y相对频数条件分布列联表第16页/共92页2023/3/1317控制Y,X相对频数条件分布列联表第17页/共92页2023/3/1318 例例A1试把下表所示的频数分布列联表,试把下表所示的频数分布列联表,转转化为自变量受到控制的相对频数条件分布列联化为自变量受到控制的相对频数条件分布列联表,并加以相关分析。表,并加以相关分析。投票行为投票行为Y Y受教育程度受教育程度X X 大学以大学以上上 大学以大学以下下投票投票弃权弃权160160 7 7129129 61 61289289
9、 68 68合计:合计:167167190190357357第18页/共92页2023/3/1319 从上表可知,受过大学以上教育的被调查者绝大多数(占95.8%)是投票的,受教育程度在大学以下的被调查者虽多数也参与投票(占67.9%),但后者参与投票的百分比远小于前者;前者只有4.2%弃权,而后者则有32.1%弃权。两相比较可知,受教育程度不同,参与投票的行为不同,因此两个变量是相关的。投票行为投票行为Y Y受教育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权95.8%(160/167)95.8%(160/167)4.2%(7/167)4.2%(7/167)67.9
10、%(129/190)67.9%(129/190)32.1%(61/190)32.1%(61/190)81.0%(289/357)81.0%(289/357)19.0%(68/357)19.0%(68/357)100.0%100.0%(167)(167)100.0%100.0%(190)(190)100.0%100.0%(357)(357)第19页/共92页2023/3/1320 例例A2试把下表所示的频数分布列联表,试把下表所示的频数分布列联表,转转化为相对频数条件分布列联表和自变量受到控化为相对频数条件分布列联表和自变量受到控制制的相对频数条件分布列联表,并加以相关分析。的相对频数条件分布列
11、联表,并加以相关分析。投票行为投票行为Y Y受教育程度受教育程度X X 大学以大学以上上 大学以大学以下下投票投票弃权弃权100100 67 67114114 76 76214214143143合计:合计:167167190190357357第20页/共92页2023/3/1321 上表显示,大学以上文化程度和大学以下文化程度同样各有60%的人参与投票,40%的人弃权,并没有因为受教育程度不同,而使参与投票的行为有所不同。因此,此时的两个变量是不相关的,或者说是独立的。我们不难发现,此时反映全体投票情况的相对频数的边际分布()也各有60%的人参与投票,40%的人弃权。投票行为投票行为Y Y受教
12、育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权60.0%(100/167)60.0%(100/167)40.0%(67/167)40.0%(67/167)60.0%(114/190)60.0%(114/190)40.0%(76/190)40.0%(76/190)60.0%(214/357)60.0%(214/357)40.0%(143/357)40.0%(143/357)100.0%100.0%(167)(167)100.0%100.0%(190)(190)100.0%100.0%(357)(357)第21页/共92页2023/3/1322 上表显示,当两个变量不相
13、关时有 。如。投票行为投票行为Y Y受教育程度受教育程度X X 大学以上大学以上 大学以下大学以下投票投票弃权弃权28.0%(100/357)28.0%(100/357)18.8%(67/357)18.8%(67/357)31.9%(114/357)31.9%(114/357)21.3%(76/357)21.3%(76/357)60.0%(214/357)60.0%(214/357)40.0%(143/357)40.0%(143/357)46.8%46.8%(167/357)(167/357)53.2%53.2%(190/357)(190/357)100.0%100.0%(357)(357)第
14、22页/共92页2023/3/1323 例B某社区调查了120名市民,考察性别与对吸烟态度之间的关系,试将所得资料作成相对频数的联合分布、边际分布和条件分布列联表,并进行相关分析。性别与对吸烟的态度态度态度态度态度Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女容忍容忍容忍容忍48488 85656反对反对反对反对202044446464合计合计合计合计68685252120120第23页/共92页2023/3/1324相对频数联合分布列联表相对频数联合分布列联表态度态度态度态度Y Y性别性别性别性别X X男男男男(X(X1 1 )女女女女(X(X2 2 )容忍容忍容忍容忍Y Y1
15、 140.0%40.0%6.7%6.7%46.7%46.7%反对反对反对反对Y Y2 216.7%16.7%36.6%36.6%53.3%53.3%56.7%56.7%43.3%43.3%100%(120)100%(120)第24页/共92页2023/3/1325相对频数条件分布列联表相对频数条件分布列联表态度态度态度态度Y Y性别性别性别性别X X男男男男()()女女女女()()容忍容忍容忍容忍70.6%70.6%15.4%15.4%46.7%(56)46.7%(56)反对反对反对反对29.4%29.4%84.6%84.6%53.3%(64)53.3%(64)100%100%(68)(68)
16、100%100%(52)(52)100%100%(120)(120)第25页/共92页2023/3/13262675名双亲和他们10071个子女的智力的关系(%)(相对频数条件分布列联表)父母智力父母智力 组合组合 子女智力子女智力 优秀优秀 子女智力子女智力 一般一般 子女智力子女智力 低下低下 优优优优 71.6 25.4 3.0 优劣优劣 33.6 42.7 23.7 一般一般一般一般 18.6 66.9 14.5 劣劣劣劣 5.4 34.4 60.2第26页/共92页2023/3/1327 通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。如果对不同的X,
17、Y的相对频数条件分布不同,且和Y的相对频数边际分布不同,则两变量之间是相关的。而如果变量间是相互独立的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。后者用数学式表示就是 或者 第27页/共92页2023/3/13282.2.削减误差比例削减误差比例 PREPRE(Proportionate Reduction in Error)通过相对频数条件分布列联表的讨论,可以就自变通过相对频数条件分布列联表的讨论,可以就自变量量X和因变量和因变量Y的关联性给出一个初步的判断。但是对关的关联性给出一个初步的判断。但是对关联联性给出判断,肯定没有用量化指标表达来得好。所以,性给出判断
18、,肯定没有用量化指标表达来得好。所以,下下面我们将关注于如何用统计方法,使相关关系的强弱面我们将关注于如何用统计方法,使相关关系的强弱可以可以通过某些简单的系数明确地表达出来。通过某些简单的系数明确地表达出来。在社会统计中,表达相关关系的强弱,削减误差在社会统计中,表达相关关系的强弱,削减误差比比例的概念是非常有价值的。削减误差比例的原理是,例的概念是非常有价值的。削减误差比例的原理是,如果如果两变量间存在着一定的关联性,那么知道这种关联性,两变量间存在着一定的关联性,那么知道这种关联性,必必然有助于我们通过一个变量去预测另一变量。其中关然有助于我们通过一个变量去预测另一变量。其中关系密系密切
19、者,在由一变量预测另一变量时,盲目性必然较关切者,在由一变量预测另一变量时,盲目性必然较关系不系不密切者为小。密切者为小。第28页/共92页2023/3/1329 PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 PRE的取值范围是 0PREl 削减误差比例PRE适用于各测量层次的变量,系数和系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。第29页/共92页2023/3/1330PRE=(56-28)态度态度态度态度Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女容忍容忍容忍容忍48488
20、 85656反对反对反对反对202044446464合计合计合计合计68685252120120第30页/共92页2023/3/13313.3.系数系数 在定类尺度上测量集中趋势只能用众数。在定类尺度上测量集中趋势只能用众数。系数就是利用此性质来构造相关系数的。系数就是利用此性质来构造相关系数的。(1 1)不对称的)不对称的系数系数第31页/共92页2023/3/1332 例例 对下表所示资料,用对下表所示资料,用系数反映性别与系数反映性别与收收入高低的相关关系。入高低的相关关系。收入收入收入收入Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女低低低低606015015021021
21、0高高高高1201207070190190合计合计合计合计180180220220400400第32页/共92页2023/3/1333第33页/共92页2023/3/1334(2)对称的)对称的系数系数第34页/共92页2023/3/1335 例 研究工作类别与工作价值的关系,工作类别可分为三类:工人、技术人员、管理/行政人员;工作价值也可分为三类:以收入/福利为最重要的职业选择标准的称为经济取向型,以工作的创造性、挑战性为最重要的职业选择标准的称为成就取向型,以工作中的人际关系为最重要的职业选择标准的称为人际关系取向型。对下表所示资料,用系数反映工作类别与工作价值的相关关系。第35页/共92
22、页2023/3/1336 职工的工作种类与工作价值职工的工作种类与工作价值 工作价值工作价值工作价值工作价值 Y Y工作种类工作种类工作种类工作种类 X X合计合计合计合计 工人工人工人工人 技术人员技术人员技术人员技术人员 管理管理管理管理/行行行行政人员政人员政人员政人员经济取向型经济取向型经济取向型经济取向型成就取向型成就取向型成就取向型成就取向型人际关系取向人际关系取向人际关系取向人际关系取向型型型型100100 30 30 20 207070606010105050202040402202201101107070合计:合计:合计:合计:F FX X150150140140110110
23、400400第36页/共92页2023/3/1337第37页/共92页2023/3/1338 性质:(1)01 (2)具有PRE意义。(3)对称与不对称情况下,有不同的公式。(4)以众数作为预测的准则,对条件频数分布列联表中众数频数以外的条件频数不予理会。(5)如果众数频数集中在条件频数分布列联表的同一行时,=0,从而无法显示两变量之间的相关性。第38页/共92页2023/3/1339系数 系数的统计值域是00,11,其特点是在计算时考虑所有的边际频数和条件频数。注意:当众数很突出且众数分布不在同一行,同一列时,用系数较好;但当众数不突出时,用系数更好;若众数集中在某一行或某一列,一定用系数。
24、第39页/共92页2023/3/1340 例例 对下表所示资料,用对下表所示资料,用系数反映性别系数反映性别与与收入高低的相关关系,并对系数的收入高低的相关关系,并对系数的PRE意义加意义加以以解释。解释。收入收入收入收入Y Y性别性别性别性别X X合计合计合计合计男男男男女女女女低低低低6060150150210210高高高高1201207070190190合计合计合计合计180180220220400400第40页/共92页2023/3/1341 第41页/共92页2023/3/1342练习:调查100名青年人与其知心朋友的志愿,条件次数分布如下:计算知心朋友的志愿与自己志愿之间的相关关系
25、,并提出研究结论。自己志愿自己志愿自己志愿自己志愿知心朋友志愿知心朋友志愿知心朋友志愿知心朋友志愿总数总数总数总数快乐快乐快乐快乐家庭家庭家庭家庭理想工理想工理想工理想工作作作作增广增广增广增广见闻见闻见闻见闻快乐家庭快乐家庭快乐家庭快乐家庭28289 93 34040理想工作理想工作理想工作理想工作2 241417 75050增广见闻增广见闻增广见闻增广见闻2 24 44 41010总数总数总数总数323254541414100100第42页/共92页2023/3/1343第三节 定序变量的相关分析 定序变量只能排列高低次序,因而在分析时只能考虑两变量变化的顺序是否一致及其等级之间的差距。以
26、此来计算两变量的相关系数。1、同序对、异序对和同分对 2、Gamma等级相关系数 3、肯德尔等级相关系数 4、萨默斯系数(d系数)5、Spearman等级相关系数 6、肯德尔和谐系数第43页/共92页2023/3/13441.同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量法,有一类是以同序对、异序对、同分对的概念为基础的,如Gamma系数、肯德尔系数、d系数等。所以我们在讨论这几种相关系数之前,先来了解这三个概念。第44页/共92页2023/3/1345 在定序相关测量中,首先要搞清楚“次序对(pair)”的概念。例如,假设研究员工的工作满足感与归属感的关系,将工作满足感从低到高
27、,分为低(1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中(2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。单元单元单元单元X XY YA A1 12 2B B1 12 2C C1 13 3DD2 23 3E E3 31 1第45页/共92页2023/3/1346同序对 参见上表(注意,为了容易识别各种次序对,该表已先将被访者按定序变量X由低到高作了排列),在观察X序列时如果我们看到Xi Xj,在Y序列中看到的是Yi Yj,则称这一配对是同序对。同序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号ns表示。异序
28、对 见上表,在观察X序列时如果我们看到Xi Xj,在Y序列中看到的是Yi Yj,则称这一配对是异序对。同样,异序对只要求X变化方向和Y变化方向相同,并不要求X变化大小和Y变化大小相等。同序对的总数用符号nd表示。第46页/共92页2023/3/1347同分对 如果在X序列中,我们观察到Xi Xj(此时在Y序列中无Yi Yj),则这个配对仅是X方向上而非Y 方向上的同分对;X 的这种同分对用符号nx表示。如果在Y 序列中,我们观察到Yi Yj(此时在X序列中无Xi Xj),则这个配对仅是Y 方向上而非X方向上的同分对;Y 的这种同分对用符号ny表示。如果我们观察到 Xi Xj时,也观察到Yi Y
29、j,则称这两个配对为X与Y 同分对,以符号nxy表示。X 同分对的总数用符号Tx表示,Tx nx+nxy;Y 同分对的总数用符号Ty表示,Ty ny+nxy。n个单位两两配对,总对数 ns+nd+nx+ny+nxy 第47页/共92页2023/3/1348 计算Gamma系数,肯得尔系数、d系数等,我们面对的经常是两定序变量已形成列联表的资料,所以对我们来说很重要的是要学会定序变量列联表中这五种“次序对”的计算和识别。同序对:“右下余子式”法 异序对:“左下余子式”法 第48页/共92页2023/3/1349高高高高中中中中低低低低高高高高8 84 43 3中中中中6 65 51 1低低低低4
30、 44 45 5 工作满足感与归属感 第49页/共92页2023/3/13502.Gamma系数性质:(1)取值范围-1,1(2)具有PRE意义(3)属对称相关测量。(4)不考虑同分对。第50页/共92页2023/3/1351 例:在某市200户中调查,看住户人口密度与婆媳冲突是否有关,交互分类后分布如下,计算G相关系数并提出研究结论。婆媳婆媳婆媳婆媳冲突冲突冲突冲突住户密度住户密度住户密度住户密度总数总数总数总数高高高高中中中中低低低低高高高高232320204 44949中中中中1111555528289494低低低低8 8272724245959总数总数总数总数4242102102565
31、6200200第51页/共92页2023/3/13523.肯德尔等级相关系数(1)Tau-a 系数 适用于不存在任何同分对的情况。第52页/共92页2023/3/1353 某市有某市有12 所大专院校,现组织一个评审委所大专院校,现组织一个评审委员会员会对各院校校园环境及学生体质进行评价,评价结对各院校校园环境及学生体质进行评价,评价结果果如表(表中已先将学校按如表(表中已先将学校按X作了次序排列)所示,作了次序排列)所示,试计算校园环境和学生体质关系的肯德尔相关系试计算校园环境和学生体质关系的肯德尔相关系数。数。学校名学校名学校名学校名 A B C D E F G H I J A B C D
32、 E F G H I J 环境名次(环境名次(环境名次(环境名次(X X)体质名次(体质名次(体质名次(体质名次(Y Y)1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 2 1 5 3 7 4 6 8 10 9 2 1 5 3 7 4 6 8 10 9 第53页/共92页2023/3/1354(2)Tau-b系数 当出现同分对时,对分母进行修正。与G系数一样,Tau-b系数也具有消减误差比例的意义。Tau-b系数的特殊性在于,只有在列联表的行数与列数相同(r=c)的情况下,其系数值才可能是-1或+1,否则便不确定。第54页/共92页2023/3/1355(3
33、)Tau-c系数 当同分对很多时,且rc,可以用Tau-c系数来测量。m取rc列联表 中r和c值较小者。Tau-c系数没有消减误差比例的意义。第55页/共92页2023/3/13564.萨默斯萨默斯(d系数)系数)萨默尔斯提出的,对萨默尔斯提出的,对G系数进行修正。系数进行修正。d系数具有系数具有PRE意义,取值意义,取值-1,1,为不对称测,为不对称测量。量。第56页/共92页2023/3/13575.Spearman等级相关系数等级相关系数 运用上式计算等级相关系数很简便:首先将定序运用上式计算等级相关系数很简便:首先将定序变变量量X和和Y的数值形成对应的两个序数数列的数值形成对应的两个序
34、数数列(其中先将其中先将X由小由小到大排到大排)。如遇有相等的数值时,则应将原有的等级。如遇有相等的数值时,则应将原有的等级求其求其平均数,让它们以这平均等级并列。然后求出等级差,平均数,让它们以这平均等级并列。然后求出等级差,经平方后求和,运用上式即可求得斯皮尔曼等级相关经平方后求和,运用上式即可求得斯皮尔曼等级相关系系数。数。例:为了解活动能力与智商是否有关,作了例:为了解活动能力与智商是否有关,作了10名名同学的抽样调查,资料如表,问这同学的抽样调查,资料如表,问这10名同学的智商与名同学的智商与活活动能力是否有关。动能力是否有关。第57页/共92页2023/3/1358学生学生学生学生
35、活动能力名次活动能力名次活动能力名次活动能力名次智商智商智商智商智商名次智商名次智商名次智商名次A A1 11101103 3B B2 21101103 3C C3 31051056 6DD4 495959 9E E5 51201201 1F F6 694941010G G7 71001008 8HH8 81051056 6I I9 91051056 6J J10101101103 3第58页/共92页2023/3/13596.肯德尔和谐系数肯德尔和谐系数 前面我们谈的都是对双变量求等级相关前面我们谈的都是对双变量求等级相关系系数。对于多变量求等级相关系数,如多个专数。对于多变量求等级相关系数
36、,如多个专家家对同一事物评价的一致性或相关程度的衡量,对同一事物评价的一致性或相关程度的衡量,肯德尔运用数理分析方法,提出了一个计算肯德尔运用数理分析方法,提出了一个计算公公式式第59页/共92页2023/3/1360 假设四位专家对假设四位专家对10所大专院校环境质量进行排序,所大专院校环境质量进行排序,有关评价结果列于下表中,试通过计算肯德尔和谐系有关评价结果列于下表中,试通过计算肯德尔和谐系数,检验专家意见的一致性和相关程度。数,检验专家意见的一致性和相关程度。专家专家专家专家名名名名 大专院校名大专院校名大专院校名大专院校名 合计合计合计合计A B C D E F G H I JA B
37、 C D E F G H I J A A B B C C D D 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 3 2 1 4 5 8 6 7 10 9 3 2 1 4 5 8 6 7 10 9 1 3 2 4 5 7 6 8 9 10 1 3 2 4 5 7 6 8 9 10 4 2 1 5 3 7 8 6 10 9 4 2 1 5 3 7 8 6 10 9 等级等级等级等级和和和和R R R R2 29 9 7 17 18 28 27 29 38 389 9 7 17 18 28 27 29 38 38 81 81 49 289 324 784 729
38、 841 1444 1444 81 81 49 289 324 784 729 841 1444 1444 6066 6066第60页/共92页2023/3/1361 例:通过对1500多名青年作社会调查,探讨当代青年择业倾向与对社会经济生活的基本态度,得资料如表,求等级相关系数(当代青年择业倾向与他们对职业社会地位的等级认定的关系;择业倾向与他们对职业的富裕程度认定的关系)。第61页/共92页2023/3/1362职业职业职业职业等级认为等级认为等级认为等级认为社会地位社会地位社会地位社会地位富裕程度富裕程度富裕程度富裕程度择业理想择业理想择业理想择业理想行政事业行政事业行政事业行政事业1
39、1 5 52 2各类专业各类专业各类专业各类专业2 2 4 41 1企业企业企业企业3 3 3 33 3教师教师教师教师4 4 6 64 4商业商业商业商业5 5 2 25 5工人工人工人工人6 6 8 87 7个体户个体户个体户个体户7 7 1 16 6农民农民农民农民8 8 7 78 8第62页/共92页2023/3/1363 试就以下单元数据,列举其中的同序对、异序对、同分对。单元单元单元单元X XY YA A3 32 2B B3 31 1C C3 31 1DD1 11 1E E2 23 3第63页/共92页2023/3/1364 根据交互分类表计算:ns、nd、nx、ny、nxy、Tx
40、、Ty、T(总对数)高高高高中中中中低低低低高高高高f f1111f f1212f f1313中中中中f f2121f f2222f f2323低低低低f f3131f f3232f f3333高高高高中中中中低低低低高高高高101012125 5中中中中202030301010低低低低5 510105 5第64页/共92页2023/3/1365 练习:1.在某地抽选469名已婚男人,研究他们对父亲的感情是否会影响他们对婚姻的适应。试计算G系数并提出研究结论。丈夫与父亲的感情对其婚姻适度之影响婚姻婚姻婚姻婚姻适应适应适应适应与父亲感情与父亲感情与父亲感情与父亲感情总数总数总数总数平淡平淡平淡平
41、淡不错不错不错不错良好良好良好良好很好很好很好很好恶劣恶劣恶劣恶劣3232414126262828127127一般一般一般一般2828474741412222138138好好好好1515696961615959204204总数总数总数总数7575157157128128109109469469第65页/共92页2023/3/1366 2.以下是两位评判员对10名参赛人员的打分排序:试用一系数描述两评判员打分相近程度。参赛人参赛人参赛人参赛人 A AB BC CDDE EF FG GHHI IJ J评判评判评判评判1 11 12 24 43 35 58 87 76 69 91010评判评判评判评
42、判2 21 12 23 34 45 56 68 87 79 91010第66页/共92页2023/3/1367第四节 定距变量的相关分析 前两节,主要借助于列联表,我们解决了一些定类、定序测量层次的相关测量问题。对于定距变量,根据其变量值的数学特征,我们自然可以引进更为精确的量化指标来反映它们之间的相关程度。两个定距变量之间的相关测量,最常用的就是所谓积差系数它是由英国统计学家皮尔逊(Pearson)用积差方法推导出来,所以也称皮尔逊相关系数,用符号r表示。第67页/共92页2023/3/13681.相关表和散点图相关表和散点图 相关表:经整理后反映两变量之间对应关系的数据相关表:经整理后反映
43、两变量之间对应关系的数据表。表。散点图:将相关表中各个有对应关系的数据在直角散点图:将相关表中各个有对应关系的数据在直角坐标坐标系上标出来,就得到散点图。散点图可以直观地观察两系上标出来,就得到散点图。散点图可以直观地观察两变变量之间对应关系。量之间对应关系。工龄工龄工龄工龄(年年年年)X X1 11 11 13 33 33 35 55 55 57 77 77 7技术考技术考技术考技术考核分核分核分核分Y Y1 12 23 32 23 34 43.53.5 4.54.5 5.55.57 78 89 9第68页/共92页2023/3/1369散点图表示的相关的类型正相关 负相关 完全正相关 完全
44、负相关 称零相关 第69页/共92页2023/3/13702积差系数的导出和计算第70页/共92页2023/3/1371 r是协方差与X和Y的标准差的乘积之比第71页/共92页2023/3/1372 试试就就下下表表所所示示资资料料,计计算算关关于于员员工工的的工工龄龄和技术考核分的皮尔逊相关系数。和技术考核分的皮尔逊相关系数。工龄工龄(年年)X X1 11 11 13 33 33 35 55 55 57 77 77 7技术考技术考核分核分Y Y1 12 23 32 23 34 43.3.5 54.4.5 55.5.7 78 89 9第72页/共92页2023/3/1373 N N0 0工龄工
45、龄工龄工龄X X技术考核技术考核技术考核技术考核分分分分Y YX X 2 2Y Y 2 2XYXYXYXY 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 12 1 1 1 1 1 1 3 3 3 3 3 3 5 5 5 5 5 5 7 7 7 7 7 71 12 23 32 23 34 4 3.5 3.5 4.5 4.5 5.5 5.57 78 89 9 1 1 1 1 1 1 9 9 9 9 9 9 25 25 25 25 25 25 49 49 49 49 49 49 1 1 4 4 9 9 4 4 9 91616 12.25 12.
46、25 20.25 20.25 30.25 30.25494964648181 1 1 2 2 3 3 6 6 9 91212 17.5 17.5 22.5 22.5 27.5 27.5494956566363 合计合计合计合计484852.552.5252252 299.75 299.75 268.5 268.5第73页/共92页2023/3/1374解:计算过程见上表r=第74页/共92页2023/3/13753 积差系数的性质 (1)r 是线性相关系数。(2)适用于定距/定比变量。(3)取值-1,1,绝对值越大,相关程度越高。r 的绝对值在以下表示不相关;表示低度相关;表示中等相关;以上表
47、示高度相关。(4)X与Y是对称关系。(5)相关系数的数值不受坐标点变化的影响。(6)r2具有PRE意义。(7)r 公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。第75页/共92页2023/3/1376注意事项:(1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加荒谬。(2)注意虚假相关 两个事物间能计算出相关系数,并不一定能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学
48、会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。第76页/共92页2023/3/1377 (3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,是直线相关还是曲线相关,然后再进行相关分析。(4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据范围之内,出了这个范围,两变量的相关关系和回归关系不能就此得到说明。第77页/共92页2023/3/1378第五节 回归分析 在分析定距变量间的关联性时,最初关注的仅仅是变量相关的强度和方向,即进行积差相关分析。然而积
49、差系数并不能表明X和Y之间的因果关系,要明确一个变量的变化能否由另一个变量的变化来解释,或要通过已知变量很好地预测未知变量,就要进行回归分析。在回归分析中,如果自变量只有一个,则称为一元回归;如果自变量有两个或两个以上则称为多元回归。而根据回归方程式的特征,又可以分为线性回归和非线性回归。一元线性回归分析是所有回归分析的基础,另外,回归分析与相关分析具有密切的联系。一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。第78页/共92页2023/3/1379 1.线性回归线性回归 线性回归分析,
50、一般是先依据相关表做线性回归分析,一般是先依据相关表做出出散点图,直观地估计散点图,直观地估计X和和Y关联性。如果两变关联性。如果两变量量的确呈现出一定的线性相关趋势,便可以设的确呈现出一定的线性相关趋势,便可以设所所要求的回归直线方程为要求的回归直线方程为 是因变量因变量Y的预测值或称估计值。的预测值或称估计值。回归方程的建立:回归方程的建立:先做散点图;先做散点图;利利用最小二乘法。用最小二乘法。第79页/共92页2023/3/1380 运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。分别对a、b求偏导并令其为零,求得两个标准方程:解联立方程,得到 a 和 b 的计算公式