《直线相关与直线回归.ppt》由会员分享,可在线阅读,更多相关《直线相关与直线回归.ppt(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、双变量的两种选取方法 1 1、一一一一个个个个变变变变量量量量是是是是选选选选定定定定的的的的(可可可可以以以以精精精精确确确确地地地地测测测测量量量量或或或或严严严严格格格格控控控控制制制制),称称称称为为为为选选选选定定定定变变变变量量量量x x,另另另另一一一一个个个个变变变变量量量量是是是是随随随随机机机机的的的的(有有有有不不不不可可可可控控控控制制制制的的的的偶偶偶偶然然然然因因因因素素素素影影影影响响响响),称称称称为为为为随随随随机机机机变变变变量量量量y y。例例例例如如如如:儿儿儿儿童童童童的的的的年年年年龄龄龄龄是是是是选选选选定定定定变变变变量量量量,身身身身高高高高则
2、则则则是是是是随随随随机机机机变变变变量量量量。选选选选定定定定变变变变量量量量x x值值值值处处处处存存存存在在在在着着着着随随随随机机机机变变变变量量量量y y值值值值的的的的总总总总体体体体,常常常常常常常常是是是是x x值值值值处处处处y y服从正态分布;服从正态分布;服从正态分布;服从正态分布;2 2、x x、y y都是随机变量都是随机变量都是随机变量都是随机变量,则存在着一个双变量(则存在着一个双变量(则存在着一个双变量(则存在着一个双变量(x x、y y)总体。如果在任意的总体。如果在任意的总体。如果在任意的总体。如果在任意的x x值处值处值处值处y y服从正态分布,在服从正态分
3、布,在服从正态分布,在服从正态分布,在任意的任意的任意的任意的y y值处值处值处值处x x服从正态分布,则服从正态分布,则服从正态分布,则服从正态分布,则x x、y y称为双变量正称为双变量正称为双变量正称为双变量正态分布。例如:某一个儿童年龄组的身高与体重是态分布。例如:某一个儿童年龄组的身高与体重是态分布。例如:某一个儿童年龄组的身高与体重是态分布。例如:某一个儿童年龄组的身高与体重是双变量正态分布。双变量正态分布。双变量正态分布。双变量正态分布。双变量研究中存在的两种关系 1、相互关系(互依关系)、相互关系(互依关系)两两个个变变量量是是平平等等的的,可可令令任任一一变变量量为为x,另另
4、一一变变量量为为y,来来研研究究两两个个变变量量的的彼彼此此关关系系或或彼彼此此影影响响,可可采采用用直直线线相相关关分分析析。一一般般来来说说,直直线线相相关关分分析析只只适适用用于于双双变变量量正正态态分分布资料;布资料;2、因果关系(依存关系)、因果关系(依存关系)两个变量是不平等的两个变量是不平等的,一个为自变量一个为自变量x,另一个为因变量另一个为因变量y,来研究来研究x对对y的作用或的作用或y对对x的依赖,可采用直线回归分析。一般来的依赖,可采用直线回归分析。一般来说,直线回归分析可适用于上述两种变量的说,直线回归分析可适用于上述两种变量的选取。选取。第一节第一节直线相关分析直线相
5、关分析直线相关(linear correlation)当一个变量当一个变量x由小到大变化,另一由小到大变化,另一个变量个变量y亦相应地由小到大或由大到小亦相应地由小到大或由大到小变化,变化,两个变量的散点图呈直线趋势两个变量的散点图呈直线趋势,那么,那么,两个变量间存在直线关系。这种两个变量间存在直线关系。这种直线关系,或分析这种直线关系的理论直线关系,或分析这种直线关系的理论或方法,统称为直线相关。两变量间直或方法,统称为直线相关。两变量间直线相关的密切程度和方向,用线相关的密切程度和方向,用直线相关直线相关系数系数来表示来表示。直线相关分析的步骤 1 1、散点图(相关图)散点图(相关图)散
6、点图(相关图)散点图(相关图):观察各个散点有无直线趋观察各个散点有无直线趋观察各个散点有无直线趋观察各个散点有无直线趋 势,若有直线趋势,可进行直线相关分析。势,若有直线趋势,可进行直线相关分析。势,若有直线趋势,可进行直线相关分析。势,若有直线趋势,可进行直线相关分析。2 2、计算五个基本数字计算五个基本数字计算五个基本数字计算五个基本数字 x xx x2 2 y y y y2 2 xy xy3 3、求相关系数求相关系数求相关系数求相关系数r r r=(x-x)(y-y)/(x-x)r=(x-x)(y-y)/(x-x)2 2(y-y)(y-y)2 24 4、相关系数相关系数相关系数相关系数
7、r r的假设检验的假设检验的假设检验的假设检验 查表法查表法查表法查表法 t t检验检验检验检验 t t|r-0|/S|r-0|/Sr r S Sr r=(1-r=(1-r2 2)/(n-2)/(n-2)5 5、根据专业知识作出结论根据专业知识作出结论根据专业知识作出结论根据专业知识作出结论。相关系数的计算本例本例 r=0.9395r=0.9395相关系数及其意义相关系数及其意义(correlation coefficient)1.1.定义定义定义定义:相关系数是描述呈双变量正态分布的两个相关系数是描述呈双变量正态分布的两个相关系数是描述呈双变量正态分布的两个相关系数是描述呈双变量正态分布的两
8、个变量直线相关的密切程度和方向的指标。变量直线相关的密切程度和方向的指标。变量直线相关的密切程度和方向的指标。变量直线相关的密切程度和方向的指标。2.2.符号符号符号符号:样本相关系数用:样本相关系数用:样本相关系数用:样本相关系数用r r表示,总体相关系数用表示,总体相关系数用表示,总体相关系数用表示,总体相关系数用 表示,没有单位,取值范围从表示,没有单位,取值范围从表示,没有单位,取值范围从表示,没有单位,取值范围从1 1到到到到1 1。3.3.意义意义意义意义:在:在:在:在r r值有显著性意义的条件下,值有显著性意义的条件下,值有显著性意义的条件下,值有显著性意义的条件下,r r值愈
9、值愈值愈值愈接近接近接近接近1 1,两个变量的关系愈密切;,两个变量的关系愈密切;,两个变量的关系愈密切;,两个变量的关系愈密切;r r值愈接值愈接值愈接值愈接近近近近0 0,两个变量的关系愈不密切。,两个变量的关系愈不密切。,两个变量的关系愈不密切。,两个变量的关系愈不密切。r r00为为为为正相关正相关正相关正相关(positive correlationpositive correlation),表示表示表示表示y y随随随随x x增加而增加;增加而增加;增加而增加;增加而增加;r r0100100时,时,时,时,r r 0.70.7称为称为称为称为高高高高度相关度相关度相关度相关;0.
10、70.7r r 0.40.4称为称为称为称为中度相关中度相关中度相关中度相关;r r0.4100100)时,时,时,时,|r r|0.7|0.7称为高度相关;称为高度相关;称为高度相关;称为高度相关;0.70.7|r r|0.4|0.4称为中度相关,称为中度相关,称为中度相关,称为中度相关,|r r|0.4|0000,表示直线与纵轴的交点在原点的上方;表示直线与纵轴的交点在原点的上方;表示直线与纵轴的交点在原点的上方;表示直线与纵轴的交点在原点的上方;a a a a0000000,表示表示表示表示y y y y随随随随x x x x增大而增大;增大而增大;增大而增大;增大而增大;b b b b
11、0000时)或平均减少(当时)或平均减少(当b0时)时)b个单位。个单位。与直线相关一样,直线回归方程也是与直线相关一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系样误差问题。所以,需要对样本的回归系数数b b进行假设检验,以判断进行假设检验,以判断b b是否从总体回是否从总体回归系数归系数为零为零的总体中抽得。的总体中抽得。为了判断抽为了判断抽样误差的影响,需对回归系数进行假设检样误差的影响,需对回归系数进行假设检验。总体回归系数一般用验。总体回归系数一般用表示。表示。样本回归系数的假设检验样本回归系数的假设检
12、验回归系数b的t检验 1.1.y y与与与与 离差的平方和离差的平方和离差的平方和离差的平方和2.2.标标标标准准准准估估估估计计计计误误误误差差差差(固固固固定定定定x x时时时时,y y与与与与回回回回归归归归线线线线()垂垂垂垂直直直直方方方方向向向向的的的的离离离离散散散散程程程程度度度度,即即即即y y的的的的标标标标准准准准差差差差,反反反反映映映映x x的的的的影影影影响响响响被被被被扣扣扣扣除除除除后后后后y y的变异,故又称为剩余标准差的变异,故又称为剩余标准差的变异,故又称为剩余标准差的变异,故又称为剩余标准差)3.3.样本回归系数样本回归系数样本回归系数样本回归系数b b
13、的标准误的标准误的标准误的标准误 4.4.回归系数回归系数回归系数回归系数b b的的的的t t检验检验检验检验 直线回归方程的建立直线回归方程的建立 回归直线的描绘 根据求得的回归方程,可以在根据求得的回归方程,可以在自变量自变量X X 的实测范围内任取两个值,的实测范围内任取两个值,代入方程中,求得相应的两个代入方程中,求得相应的两个Y Y 值,值,以这两对数据找出对应的两个坐标点,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程将两点连接为一条直线,就是该方程的回归直线。回归直线一定经过(的回归直线。回归直线一定经过(0 0,a a ),(),()。)。这两点可以用来这两
14、点可以用来核对直线绘制是否正确。核对直线绘制是否正确。直线回归分析的用途直线回归分析的用途 1 1.回回回回归归归归系系系系数数数数b b有有有有显显显显著著著著性性性性意意意意义义义义的的的的前前前前提提提提条条条条件件件件下下下下,利利利利用用用用直直直直线线线线回回回回归归归归方方方方程描述应变量程描述应变量程描述应变量程描述应变量y y依赖自变量依赖自变量依赖自变量依赖自变量x x变化而变化的数量关系。变化而变化的数量关系。变化而变化的数量关系。变化而变化的数量关系。例如例如例如例如:儿童体重依赖年龄变化而变化的数量关系;:儿童体重依赖年龄变化而变化的数量关系;:儿童体重依赖年龄变化而
15、变化的数量关系;:儿童体重依赖年龄变化而变化的数量关系;2 2.根据容易测定的变量值估计难以测定的变量值。根据容易测定的变量值估计难以测定的变量值。根据容易测定的变量值估计难以测定的变量值。根据容易测定的变量值估计难以测定的变量值。例如例如例如例如:以人的体重估计人的体表面积;:以人的体重估计人的体表面积;:以人的体重估计人的体表面积;:以人的体重估计人的体表面积;3 3.利利利利用用用用直直直直线线线线回回回回归归归归方方方方程程程程进进进进行行行行预预预预测测测测预预预预报报报报,由由由由已已已已知知知知变变变变量量量量(预预预预报报报报因因因因子子子子x x)预测将来的未知变量(预报量预
16、测将来的未知变量(预报量预测将来的未知变量(预报量预测将来的未知变量(预报量y y)。)。)。)。例如例如例如例如:由父母的身高预测子女将来的身高;:由父母的身高预测子女将来的身高;:由父母的身高预测子女将来的身高;:由父母的身高预测子女将来的身高;4 4.利利利利用用用用直直直直线线线线回回回回归归归归方方方方程程程程进进进进行行行行统统统统计计计计控控控控制制制制,即即即即利利利利用用用用回回回回归归归归方方方方程程程程进进进进行行行行逆逆逆逆估计。估计。估计。估计。例例例例如如如如:把把把把车车车车流流流流量量量量(x x)与与与与汽汽汽汽车车车车排排排排出出出出的的的的某某某某种种种种
17、毒毒毒毒物物物物(y y)建建建建立立立立直直直直线线线线回回回回归归归归方方方方程程程程,若若若若要要要要求求求求y y在在在在一一一一定定定定的的的的波波波波动动动动范范范范围围围围内内内内(卫卫卫卫生生生生标标标标准准准准以以以以下)可通过控制下)可通过控制下)可通过控制下)可通过控制x x的取值来实现;的取值来实现;的取值来实现;的取值来实现;直线回归分析中应注意的问题直线回归分析中应注意的问题1 1 1 1、两个事物间两个事物间两个事物间两个事物间毫无实际意义毫无实际意义毫无实际意义毫无实际意义时不要作直线回归分析;时不要作直线回归分析;时不要作直线回归分析;时不要作直线回归分析;2
18、 2、回归分析前首先绘制散点图,观察两变量间散点有、回归分析前首先绘制散点图,观察两变量间散点有、回归分析前首先绘制散点图,观察两变量间散点有、回归分析前首先绘制散点图,观察两变量间散点有无无无无线性趋势线性趋势线性趋势线性趋势,有无异常点、高杠杆点或强影响点存在;,有无异常点、高杠杆点或强影响点存在;,有无异常点、高杠杆点或强影响点存在;,有无异常点、高杠杆点或强影响点存在;3 3、考虑建立、考虑建立、考虑建立、考虑建立直线回归模型的基本假定直线回归模型的基本假定直线回归模型的基本假定直线回归模型的基本假定,满足线性,满足线性,满足线性,满足线性(linearlinear)、)、)、)、独立
19、(独立(独立(独立(independentindependent)、)、)、)、正态(正态(正态(正态(normalnormal)、)、)、)、方差相等(方差相等(方差相等(方差相等(equal varianceequal variance)4 4个条件;个条件;个条件;个条件;4 4、x x选定,选定,选定,选定,y y服从正态分布的双变量,作直线回归分析称服从正态分布的双变量,作直线回归分析称服从正态分布的双变量,作直线回归分析称服从正态分布的双变量,作直线回归分析称型回归型回归型回归型回归,如标准曲线;,如标准曲线;,如标准曲线;,如标准曲线;x x、y y服从双变量正态分布的资服从双变
20、量正态分布的资服从双变量正态分布的资服从双变量正态分布的资料,作直线回归分析称料,作直线回归分析称料,作直线回归分析称料,作直线回归分析称型回归型回归型回归型回归;5 5、双变量正态分布资料作直线回归分析,由、双变量正态分布资料作直线回归分析,由、双变量正态分布资料作直线回归分析,由、双变量正态分布资料作直线回归分析,由x x推算推算推算推算y y,或或或或由由由由y y推算推算推算推算x x,所得回归系数所得回归系数所得回归系数所得回归系数b b及回归方程不同,因此,自及回归方程不同,因此,自及回归方程不同,因此,自及回归方程不同,因此,自变量变量变量变量x x和应变量和应变量和应变量和应变
21、量y y应根据专业知识来确定;应根据专业知识来确定;应根据专业知识来确定;应根据专业知识来确定;6 6、绘制的回归直线应在、绘制的回归直线应在、绘制的回归直线应在、绘制的回归直线应在x x的的的的实测值范围内实测值范围内实测值范围内实测值范围内或实际可用的范或实际可用的范或实际可用的范或实际可用的范围内使用,不能任意将直线延长,因为直线延长后不一围内使用,不能任意将直线延长,因为直线延长后不一围内使用,不能任意将直线延长,因为直线延长后不一围内使用,不能任意将直线延长,因为直线延长后不一定呈直线关系。定呈直线关系。定呈直线关系。定呈直线关系。直线回归与直线相关的区别1.1.1.1.意义意义意义
22、意义 :相关反映两变量的相互关系,即在两个变量中,任何一个的变化:相关反映两变量的相互关系,即在两个变量中,任何一个的变化:相关反映两变量的相互关系,即在两个变量中,任何一个的变化:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的的依存关系,一个变量的改变会引起另一个变量的变化,是
23、一种单向的的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。关系。关系。关系。2 2、在资料要求上:、在资料要求上:、在资料要求上:、在资料要求上:直线回归适用于直线回归适用于直线回归适用于直线回归适用于y y服从正态分布,服从正态分布,服从正态分布,服从正态分布,x x是可以精确测量和严是可以精确测量和严是可以精确测量和严是可以精确测量和严格控制的变量,称为格控制的变量,称为格控制的变量,称为格控制的变量,称为型回归;也适用于型回归;也适用于型回归;也适用于型回归;也适用于x x、y y服从双变量正态分布资料,服
24、从双变量正态分布资料,服从双变量正态分布资料,服从双变量正态分布资料,可以计算两个回归方程,称为可以计算两个回归方程,称为可以计算两个回归方程,称为可以计算两个回归方程,称为型回归;直线相关分析只适用于型回归;直线相关分析只适用于型回归;直线相关分析只适用于型回归;直线相关分析只适用于x x、y y服服服服从双变量正态分布资料;从双变量正态分布资料;从双变量正态分布资料;从双变量正态分布资料;3.3.3.3.在应用上在应用上在应用上在应用上:说明两变量间依存关系的数量关系时采用直线回归,说明两说明两变量间依存关系的数量关系时采用直线回归,说明两说明两变量间依存关系的数量关系时采用直线回归,说明
25、两说明两变量间依存关系的数量关系时采用直线回归,说明两变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确变量间的相互关系时采用直线相关。实际工作中,应根据专业知识来确定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)定是作直线相关分析(相互关系)还是作直线回归分析(因果关系)。4.4.4.4.研究性质研究性质研究性质研究性质:相关是
26、对两个变量之间的关系进行描述,看两个变量是否有:相关是对两个变量之间的关系进行描述,看两个变量是否有:相关是对两个变量之间的关系进行描述,看两个变量是否有:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可对两个变量做定量描述
27、,研究两个变量的数量关系,已知一个变量值可对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值可以预测出另一个变量值,可以得到定量结果。以预测出另一个变量值,可以得到定量结果。以预测出另一个变量值,可以得到定量结果。以预测出另一个变量值,可以得到定量结果。5.5.5.5.相关系数相关系数相关系数相关系数r r r r与回归系数与回归系数与回归系数与回归系数b b b b的解释上的解释上的解释上的解释上:b b和和和和r r的绝对值没有直线联系,的绝对值没有直线联系,的绝对值没有直线联系,的绝对值没有直线联系,b b有单位,有单位,有单位,有单位,而而而而r r无单位。无单位。无单位。无
28、单位。r r r r的绝对值越大,散点图中的点越趋向于一条直线,表明两的绝对值越大,散点图中的点越趋向于一条直线,表明两的绝对值越大,散点图中的点越趋向于一条直线,表明两的绝对值越大,散点图中的点越趋向于一条直线,表明两变量的关系越密切,相关程度越高。变量的关系越密切,相关程度越高。变量的关系越密切,相关程度越高。变量的关系越密切,相关程度越高。b b b b的绝对值越大,回归直线越陡,的绝对值越大,回归直线越陡,的绝对值越大,回归直线越陡,的绝对值越大,回归直线越陡,说明当说明当说明当说明当X X X X变化一个单位时,变化一个单位时,变化一个单位时,变化一个单位时,Y Y Y Y的平均变化
29、就越大。反之也是一样。的平均变化就越大。反之也是一样。的平均变化就越大。反之也是一样。的平均变化就越大。反之也是一样。直线回归与直线相关的联系直线回归与直线相关的联系1.1.1.1.方向一致方向一致方向一致方向一致:对一组数据若同时计算:对一组数据若同时计算:对一组数据若同时计算:对一组数据若同时计算r r r r与与与与b b b b,它们的它们的它们的它们的正负号是一致的正负号是一致的正负号是一致的正负号是一致的 2.2.2.2.假设检验等价假设检验等价假设检验等价假设检验等价:对同一样本,:对同一样本,:对同一样本,:对同一样本,r r r r和和和和b b b b的假设检验得的假设检验
30、得的假设检验得的假设检验得到的到的到的到的t t t t值相等,值相等,值相等,值相等,故同一组数据的故同一组数据的故同一组数据的故同一组数据的r r和和和和b b b b的假设检验是的假设检验是的假设检验是的假设检验是等价的,可用查表法进行等价的,可用查表法进行等价的,可用查表法进行等价的,可用查表法进行r r的假设检验来代替的假设检验来代替的假设检验来代替的假设检验来代替b b b b的的的的假设检验。若假设检验。若假设检验。若假设检验。若x.yx.y服从双变量正态分布,一般是先服从双变量正态分布,一般是先服从双变量正态分布,一般是先服从双变量正态分布,一般是先作直线相关分析,需要时再作直线回归分析。作直线相关分析,需要时再作直线回归分析。作直线相关分析,需要时再作直线回归分析。作直线相关分析,需要时再作直线回归分析。3.3.3.3.用回归解释相关用回归解释相关用回归解释相关用回归解释相关:r r r r的平方称为决定系数。的平方称为决定系数。的平方称为决定系数。的平方称为决定系数。