《直线相关回归简单回归分析.pptx》由会员分享,可在线阅读,更多相关《直线相关回归简单回归分析.pptx(83页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第一节 线性相关什么是相关?当所研究的两个事物或现象之间,既存在着密切的数量关系,又不象函数关系那样,能以一个变量的数值精确地求出另一个变量的数值,我们称这类变量之间的关系为相关关系,简称相关。目的:研究事物或现象之间有无关系、关系的方向和密切程度。第1页/共83页线性相关(linear correlation)又称简单相关,用于双变量正态分布资料。相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。第一节 线性相关第2页/共83页线性相关的性质和相关之间的密切程度:线性相关的性质和相关之间的密切程度:1.正相关2.负相关3.无相关4.非线性相关第3页/共83页第4页/共8
2、3页线性相关系数(一)相关系数的意义 相关系数(coefficient of correlation)又称积差相关系数(coefficient of product-moment correlation),以符号r表示。它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。第5页/共83页线性相关系数(一)相关系数的意义 r0:正相关;r3.169,P0.01,按=0.05水准,拒绝H0,接受H1,故可以认为一年级女大学生体重与肺活量间呈正的直线相关 第14页/共83页查表法:查表法:根据自由度根据自由度=n-2=12-2=10=n-2=12-2=10,查附表,查附表1313,r
3、r界值表界值表r r 0.05(10)0.05(10)=0.576=0.576r=0.7495r=0.74950.5760.576,P P0.050.05,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1,故可以认为一年,故可以认为一年级女大学生体重与肺活量间呈正的直线相关级女大学生体重与肺活量间呈正的直线相关第15页/共83页进行相关分析时的注意事项1.线性相关表示两个变量之间的关系是双向的,当散点图出现直线趋势时,再作分析。2.相关系数的计算只适用于两个变量都服从正态分布的资料。第16页/共83页3.样本相关系数是总体相关系数的一个估计值,与总体相关系数之
4、间存在着抽样误差,必须作假设检验。4.相关分析是用相关系数来描述两个变量间相互关系的密切程度和方向,相关关系不一定是因果关系。5.出现异常值时慎用相关。进行相关分析时的注意事项第17页/共83页第二节 秩相关(Spearman秩相关)秩相关,又称等级相关。适用于不服从正态分布的资料或总体分布未知的资料,属非参数统计方法。一、秩相关的概念及其统计描述第18页/共83页例11-4 某地研究27岁急性白血病患儿的血小板数与出血症状程度之间的相关性,结果见表11-2。试用秩相关进行分析。第19页/共83页表11-2 患儿的血小板和出血症状编号 血小板数 秩次 出血症状 秩次 pq 1 121 1 11
5、.5 11.5 2 138 2 9.0 18 3 165 3 7.0 21 4 310 4 3.5 14 5 426 5 9.0 45 6 540 6 9.0 54 7 740 7 3.5 24.5 8 1060 8 3.5 28 9 1260 9 3.5 31.510 1290 10 3.5 3511 1438 11 11.5 126.512 2004 12 3.5 42合计 78 78 451第20页/共83页步骤:1.将两变量X、Y成对的观察值分别从小到大排序编秩,以pi表示Xi的秩次,以qi表示Yi的秩次。2.观察值相同的取平均秩次。3.将pi、qi直接替换原始数据,计算秩相关系数(r
6、s)。第21页/共83页p=78,q=78,p2=650,q2=630,pq=451,n12第22页/共83页二、秩相关系数的统计推断=0.05 当n50时,可查附表14,rs界值表,若统计量rs大于临界值,则拒绝H0假设。当n50时,可作t检验。第23页/共83页例11-4中,算得rs0.422,n12,查rs界值表,rsr12,0.1=0.503,P0.1,按0.05的水准,不拒绝H0,可认为急性白血病患儿的出血症状与血小板数之间无相关关系。第24页/共83页第三节 分类变量的关联性分析例11-6 为观察婴儿腹泻是否与喂养方式有关,某医院儿科随机收集了消化不良的婴儿82例,把该院儿科所有消
7、化不良的患儿视为一个总体的话,则该82例患儿可看作一份随机样本,对每个个体分别观察腹泻与否和喂养方式两种属性,试分析两种属性的关联性。一、交叉分类22表的关联分析第25页/共83页表11-3 婴儿腹泻与喂养方式的关系喂养方式 腹泻 合计 有 无 人工 30 10 40 母乳 17 25 42 合计 47 35 82第26页/共83页两种属性的关联性分析H0:喂养方式与婴儿腹泻间互相独立H1:喂养方式与婴儿腹泻间有关联 0.05第27页/共83页由于2=9.98 2 0.05(1)=3.84,故P0.05,按=0.05 水准拒绝H0,接受H1,故可以认为喂养方式与婴儿腹泻间存在关联性。两分类变量
8、的关联程度,可用pearson列联系数来描述。第28页/共83页例11-7 有56份咽喉涂抹标本,把每份标本一分为二,依同样的条件分别接种于甲、乙两种培养基上,观察白喉杆菌的生长情况,结果见表11-5,问两种培养基的结果有无关联?二、22配对资料的关联性分析第29页/共83页表11-5 两种培养基白喉杆菌生长情况 甲培养基 乙培养基 合 计 22(a)18(b)40 2(c)14(d)16合计 24 32 56第30页/共83页检验步骤:1建立假设:H0 0:两种培养基的结果之间互相独立H1 1:两种培养基的结果之间互相关联0.052计算2值第31页/共83页由于2=8.43 2 0.05(1
9、)=3.84,故P0.05,按=0.05 水准拒绝H0,接受H1,故可认为两种培养基的结果之间存在关联性。pearson列联系数第32页/共83页例11-8 某地居民主要有三种祖籍,均流行甲状腺肿。为探讨甲状腺肿类型与祖籍是否有关联,现根据居民甲状腺肿筛查结果,按甲状腺肿类型与祖籍两种属性交叉分类,得表11-6的结果,问甲状腺肿类型与祖籍间有无关联?三、RC表分类资料的关联性分析第33页/共83页表11-6 甲状腺肿类型与祖籍的关系祖籍 甲状腺肿类型 合计 弥漫型 结节型 混合型甲 486 2 4 492乙 133 260 51 444丙 100 315 85 500合计 719 577 14
10、0 1436第34页/共83页两种属性的关联性分析H0:甲状腺肿类型与祖籍间无关联H1:甲状腺肿类型与祖籍间有关联 0.05第35页/共83页由于2=723.783 2 0.05(4)=9.49,故P0.05,按=0.05 水准拒绝H0,接受H1,故可认为甲状腺肿类型与祖籍间有关联。第36页/共83页pearson列联系数第37页/共83页线性相关的概念线性相关(linear correlation)又称简单相关,用于双变量正态分布资料。相关关系并不一定是因果关系,相关分析的任务就是对相关关系给以定量的描述。小 结第38页/共83页相关系数的意义 相关系数(coefficient of cor
11、relation)又称积差相关系数(coefficient of product-moment correlation),以符号r表示。它是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。小 结第39页/共83页r0:正相关;r0:负相关;r0:零相关;|r|l:完全相关。小 结第40页/共83页线性相关系数的特点 1.相关系数r是一个无量纲的数值,且-1rl;2.r0为正相关,r0为负相关;3.|r|越接近于l,说明相关性越好,|r|越接近于0,说明相关性越差。小 结第41页/共83页练习1 根据如下资料,试分析根据如下资料,试分析1616名男大学生的身高与肺活量的线性相关名男
12、大学生的身高与肺活量的线性相关关系。关系。身高:身高:1.742 1.718 1.714 1.7121.742 1.718 1.714 1.712 1.720 1.704 1.709 1.729 1.708 1.720 1.704 1.709 1.729 1.708 1.698 1.714 1.674 1.683 1.670 1.698 1.714 1.674 1.683 1.670 1.679 1.692 1.679 1.692肺活量:肺活量:4.650 4.278 4.420 4.3794.650 4.278 4.420 4.379 4.365 4.222 3.973 4.290 4.02
13、2 4.365 4.222 3.973 4.290 4.022 4.077 4.318 4.039 3.850 3.625 4.077 4.318 4.039 3.850 3.625 3.874 3.911 3.874 3.911第42页/共83页X=27.266 Y=66.293,X2=46.471 Y2=275.728,XY=113.042 n=16 第43页/共83页相关系数假设检验=0.05 第44页/共83页=n216214,t0.05(14)=2.145t=6.602.228,P0.05,按=0.05水准,拒绝H0,接受H1,故可以认为男大学生身高与肺活量间呈正的直线相关 第45页
14、/共83页查表法:根据自由度=n-2=16-2=14,查附表13,r界值表r0.05(14)=0.497r=0.870.497,P0.05,按=0.05水准,拒绝H0,接受H1,故可以认为男大学生身高与肺活量间呈正的直线相关第46页/共83页练习2 判断题1)r0.8,就可以认为两变量相关非常密切 ()2)相关系数的假设检验P值越小说明X和Y的关系越密切 ()错误错误第47页/共83页练习2 判断题3)相关系数为0.78,P0.05,说明两变量密切相关 ()4)根据样本算得一相关系数r,经t检验,P0.01,说明r来自高度相关的总体 ()错误正确第48页/共83页练习3 单选题1)计算积差相关
15、系数要求 ()A只要一个变量服从正态分布B两变量均要求服从正态分布C两变量均不要求服从正态分布D等级资料第49页/共83页2)相关系数检验的无效假设是()A 0 B 0 C=0D=1 E=-1练习3 单选题第50页/共83页简单回归分析第十二章第51页/共83页第一节 线性回归线性回归的概念 假设两个变量X,Y中,当一个变量X改变时,另一个变量Y也相应地改变,此时称X为自变量(independent variable),Y为应变量(dependent variable)。当这两个变量之间存在着直线关系时,不仅可以用相关系数r表示变量Y与X线性关系的密切程度,也可以用 来表示Y与X的线性关系,称
16、为线性回归(1inearregression)。为了区别于一般函数方程,我们将它称为直线回归方程。第52页/共83页由图10.1可见,肺活量Y 有随体重X增加而增大的趋势,且散点呈直线趋势,但并非12个点恰好全都在一直线上。第53页/共83页直线回归方程的求法 一般表达式:a为回归直线在Y轴上的截距(intercept)。a0:直线与纵轴的交点在原点的上方a0:则交点在原点的下方a0:则回归线通过原点 第54页/共83页b为回归系数(regression coefficient),即直线的斜率(slope)b0:表示直线从左下方走向右上方,即Y随X增大而增大b0:表示直线从左上方走向右下方,即
17、y随X增大而减少b0:表示直线与X轴平行,即X与Y无直线关系b的统计学意义是X每增(减)一个单位,Y平均改变b个单位第55页/共83页根据数学上的最小二乘法(least square method)原理(即保证各实测点至直线的纵向距离的平方和最小),可导出a、b的算式如下:第56页/共83页就上例试求女大学生肺活量Y对体重X的直线回归方程:第57页/共83页回归方程:第58页/共83页直线回归方程的图示 在自变量X的实测全距范围内任取相距较远且易读数的两个X值,代入上式。如上例取X=42,得Y=2.47;取X58,得Y=3.41。在图上确定(42,2.47)和(58,3.41)两个点,以直线连
18、接,即得直线式 =0.000419+0.058826X的图形。第59页/共83页注意:所绘直线必然通过点(),若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截距a 第60页/共83页直线回归方程的应用 1.描述两变量间的依存关系2.利用回归方程进行预测(forecast)3.利用回归方程进行统计控制(statistical control)第61页/共83页回归系数的假设检验 回归方程是否成立,即x、y是否有直线关系,是回归分析要考虑的首要问题。即使x、y的总体回归系数为零,由于抽样误差,其样本回归系数b也不一定为零,因此需作是否为零的假设检验,可用方差分析或t检验。
19、第62页/共83页目的:检验目的:检验目的:检验目的:检验b b b b是否来自总体回归系数是否来自总体回归系数是否来自总体回归系数是否来自总体回归系数为零的总为零的总为零的总为零的总体体体体步骤步骤1.建立假设和确定检验水准:H0:=0 H1:0 =0.05回归系数的假设检验 第63页/共83页2.计算统计量(一)方差分析第64页/共83页总 =n-1 回归=1 剩余=n-2 SS剩余=SS总-SS回归第65页/共83页式中Sb为样本回归系数的标准误,Sy.x为剩余标准差,是当X的影响被扣除后,应变量Y值对于回归直线的离散程度。(二)t检验2.计算统计量回归系数与相关系数的假设检验是等值的,
20、即tr=tb 第66页/共83页第67页/共83页应用直线回归应注意的问题(1)作回归分析要有实际意义,不能把毫无关联的两种现象作回归分析,必须对两种观象间的内在联系有所认识。(2)作回归分析时,一般以“因”的变量为X,以“果”的变量为Y。若变量之间无因果关系,则以容易测定、较稳定或变异较小者为X。第68页/共83页应用直线回归应注意的问题(3)应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布;自变量为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。(4)回归方程只有经过检验拒绝了无效假设后才有意义。第69页/共83页应用直线回归应注意的问题(5)回归方程的适用范围有其限度
21、,一般仅适用于自变量X的原数据范围内,而不能任意外推。(6)在进行直线回归分析之前,应绘制散点图,当观察点的分布有直线趋势时,才适宜作直线回归分析,如散点图明显呈曲线趋势,使之直线化再行分析。第70页/共83页 1.在资料要求上,回归要求因变量Y服从正态分布;X是可以精确测量和严格控制的变量,一般称为I型回归。第三节 直线相关与回归的区别和联系区别第71页/共83页相关要求两个变量X、Y服从双变量正态分布。这种资料若进行回归分析称为型回归。可以计算两个回归方程。由X推Y的回归方程:由Y推X的回归方程:第72页/共83页 2.在应用上,说明两变量间依存变化的数量关系用回归,说明变量间双向的相互关
22、系时用相关。区别第73页/共83页联系 1.对一组数据若同时计算r与b,它们的正负号是一致的。r为正号说明两变量间的相互关系是同向变化的。b为正,说明X增(减)一个单位,Y平均增(或减)b个单位。2.r和b的假设检验是等价的,即对同一样本,二者的t值相等。3.回归与相关可互相解释。r2称为决定系数(Coefficient ofdetermination)。第74页/共83页1、区别:(1)相关的两个变量都需服从正态分布 回归中Y必须服从正态分布,X不一定(2)相关表示相互关系(双向),回归表示数量依存关系(单向)2、联系(1)同一样本r与b的正负号是一致的(2)同一样本r与b的假设检验是等价的
23、(3)相关回归可互相解释 r2 决定系数 第75页/共83页小小 结结1.直线回归用来描述两变量间的依存关系,主要用途是预测和控制。2.根据回归方程绘制的直线是回归线,与纵坐标交点为截距,回归直线的斜率称为回归系数。第76页/共83页3.应变量是随机变量。自变量也是随机变量时,两者均应服从正态分布;自变量为给定的量时,与每个X取值相对应的变量Y必须服从正态分布。4.对于某些非线性资料可以通过变量变换使之直线化。5.回归与相关可互相解释。第77页/共83页1)回归系数越大,两变量相关关系越密切 ()2)回归系数小于0,且有统计学意义,可以认为两变量负相关 ()3)同一样本的r和b的假设检验结果相
24、同 ()练习1 判断题错误正确正确 第78页/共83页1)1)回回归归方方程程 =a+bx=a+bx中中,符符号号分分别别代代表表意意义义如如下下,除除了了 ()A A 为应变量为应变量 B Ba a 为常数项为常数项 C Cb b 为回归系数为回归系数 D DX X为应变量为应变量练习2 单选题第79页/共83页2)2)关关于于直直线线相相关关系系数数与与回回归归系系数数的的关关系系描描述述错错误误的的是是 ()A Ar r大,则大,则b b也一定大也一定大 B Br r不可能大于不可能大于1 1,b b则可大于则可大于1 1 C C同一组资料,同一组资料,r r 0 0,则,则b b 0
25、0 D D同一组资料,同一组资料,t tr r=t=tb b练习2 单选题第80页/共83页3 3)直线回归系数的假设检验,其自)直线回归系数的假设检验,其自由度为由度为 ()A.n B.n-1 C.n-2A.n B.n-1 C.n-2D.2n-1 E.2n-2D.2n-1 E.2n-24 4)回归系数检验的无效假设是()回归系数检验的无效假设是()A.A.0 B.0 B.0 C.0 C.=0=0D.b=0 E.b 0D.b=0 E.b 0练习2 单选题第81页/共83页5)5)两两组组资资料料中中,回回归归系系数数较较大大的的一一组组 ()A A则则r r也较大也较大B B则则r r也较小也较小 C C两变量关系较密切两变量关系较密切 D D则则r r可能大也可能小可能大也可能小 练习2 单选题第82页/共83页感谢您的观看!第83页/共83页