《直线回归与相关分析.ppt》由会员分享,可在线阅读,更多相关《直线回归与相关分析.ppt(135页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、平均数平均数标准差标准差方差分析方差分析多重比较多重比较集中点集中点离散程度离散程度差异显著性差异显著性一个变量(产量)施肥量播种密度品种在实际研究中,事物之间的相互关在实际研究中,事物之间的相互关系涉及系涉及两个或两个两个或两个以上的变量,只以上的变量,只要其中的一个变量变动了,另一个要其中的一个变量变动了,另一个变量也会跟着发生变动,这种关系变量也会跟着发生变动,这种关系称为称为协变关系协变关系,具有协变关系的变,具有协变关系的变量称为量称为协变量协变量。确定的函数关系确定的函数关系确定的函数关系确定的函数关系PV=RT 气体压强S=r2 圆的面积协协变变量量S=a b 长方形面积身高与胸
2、围、体重施肥量与产量溶液的浓度与OD值人类的年龄与血压 温度与幼虫孵化不完全确定的函数关系(相关关系)协协变变量量相相关关变变量量一个变量一个变量的变化受的变化受另一个另一个变量或几个变量变量或几个变量的制约的制约因果关系因果关系平行关系平行关系两个两个以上变量以上变量之间共同之间共同受到另外因素的影响受到另外因素的影响动物的生长速度受遗传、营养等影响子女的身高受父母身高的影响人的身高和体重之间的关系兄弟身高之间的关系 为了确定相关变量之间的关系,首为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应先应该收集一些数据,这些数据应该是成对的,然后在直角坐标系上该是成对的,然后在直角坐标
3、系上描述这些点,这一组点集称为散点描述这些点,这一组点集称为散点图。图。散点图散点图散点图散点图(scatter diagram)scatter diagram)scatter diagram)scatter diagram)u为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测量了1078对父子的身高。把1078对数字表示在坐标上,如图。用水平轴X上的数代表父亲身高,垂直轴Y上的数代表儿子的身高,1078个点所形成的图形是一个散点图。它的形状象一块橄榄状的云,中间的点密集,边沿的点稀少,其主要部分是一个椭圆。散点图散点图散点图散点图(scatter diagram)scatter diagr
4、am)两个变量间关系的性质(正向协同变化或负向协同变化)和程度(关系是否密切)两个变量间关系的类型(直线型或曲线型)是否有异常观测值的干扰 1 2 3 4 5 64321 1 2 3 4 5 64321 1 2 3 4 5 64321正向直线关系负向直线关系曲线关系定性研究回归回归(regerssionregerssion)相关相关(correlation)correlation)定量研究曲线直线型非直线型非直线型变量二元多元多元直线型直线型二元二元直线相关与直线相关与回归分析回归分析第九章第一节第二节第三节回归与相关的概念直线回归直线相关直线回归与相关分析第九章第一节:回归与相关的概念相相关
5、关变变量量因果关系因果关系平行关系平行关系回归分析(回归分析(regression regression analysisanalysis)相关分析(相关分析(correlation correlation analysisanalysis)一个变量的变化受另一个一个变量的变化受另一个变量或几个变量的制约变量或几个变量的制约两个两个以上变量之间共同受以上变量之间共同受到另外因素的影响到另外因素的影响在在生物学中,研究两个变量间的关系,生物学中,研究两个变量间的关系,主要是为了探求两变量的内在联系,或主要是为了探求两变量的内在联系,或从一个变量从一个变量X X(可以是随机变量,也可可以是随机变量
6、,也可以是一般的变量),去推测另一个随机以是一般的变量),去推测另一个随机变量变量Y Y。xy施肥量施肥量(可以严格地人为控制可以严格地人为控制)产量产量如果对如果对x x的每的每一个可能的值,都有随机变量一个可能的值,都有随机变量y y的一个分布相对应,则称随机变量的一个分布相对应,则称随机变量y y对变量对变量x x存在回归存在回归(regression)regression)关系。关系。自变量(independent variable)因变量(dependent variable)因果关系因果关系一个变量的变化受另一个变量或几个变一个变量的变化受另一个变量或几个变量的制约量的制约在在大量
7、测量各种身高人群的体重时会发现,虽然在同大量测量各种身高人群的体重时会发现,虽然在同样身高下,体重并不完全一样。但在每一身高下,都样身高下,体重并不完全一样。但在每一身高下,都有一个确定的体重分布与之相对应有一个确定的体重分布与之相对应;在在大量测量各种体重人群的身高时会发现,虽然在同大量测量各种体重人群的身高时会发现,虽然在同样体重下,身高并不完全一样。但在每一体重下,都样体重下,身高并不完全一样。但在每一体重下,都有一个确定的身高分布与之相对应有一个确定的身高分布与之相对应;身高与体重之间存在相关关系。X身高身高Y体重体重X体重体重Y身高身高相关关系相关关系第二节:直线回归 Linear
8、Regression一、直线回归方程的建立一、直线回归方程的建立二、直线回归的数学模型和基本假定二、直线回归的数学模型和基本假定三、直线回归的假设检验三、直线回归的假设检验四、直线回归的区间估计四、直线回归的区间估计简单回归简单回归(Simple Regression)一、直线回归方程的建立直线回归就是用来描述一个变量如何依赖于另一个变量温度温度天数天数Y=a+bx直线回归方程(linear regression equation)截距截距(intercept)回归截距回归截距斜率斜率(slope)回归系数回归系数(regerssion coefficient)自变量自变量与与x值相对应的依变
9、量值相对应的依变量y的的点点估计值估计值0 xya0,b0a0a0,b0a=0b=0变量变量1变量变量2收集数据收集数据散点图温度天数 X Y平均温度()历期天数(d )11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.7黏虫孵化历期平均温度与历期天数关系图0 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()回归直线在平面坐标系中的位置取决于回归直线在平面坐标系中的位置取决于a,ba,b的取值。的取值。y最小最小最小二乘
10、法(method of least square)最小最小为最小值基本性质 X Y平均温度()历期天数(d )11.8 30.1 14.7 17.3 15.6 16.7 16.8 13.6 17.1 11.9 18.8 10.7 19.5 8.3 20.4 6.70 010102020303040401010121214141616181820202222温度温度天数(天)天数(天)()11.8-20.4用用x x估计估计y y,存在随机误差,必须根据回归的数存在随机误差,必须根据回归的数学模型对随机误差进行估计,并对回归方程进学模型对随机误差进行估计,并对回归方程进行检验。行检验。y误差二、
11、数学模型和基本假定yy y的总体平均数的总体平均数因因x x引起引起y y的变异的变异y y的随机误差的随机误差总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差直线回归的数学模型直线回归的数学模型直线回归的数学模型直线回归的数学模型(model of linear regression)model of linear regression)model of linear regression)model of linear regression)基本假定x x是没有误差的固定变量,或其误差可以忽是没有误差的固定变量,或其误差可以忽略,而略,而y y是随机变量,且有随机误差。是随
12、机变量,且有随机误差。x x是的任一值对应着一个是的任一值对应着一个y y总体,且作正态总体,且作正态分布,其平均数分布,其平均数+x+x,方差受偶然方差受偶然因素的影响,不因因素的影响,不因x x的的变化而改变。变化而改变。随机误差随机误差是相互独立的,呈正态分布。是相互独立的,呈正态分布。y三、直线回归的假设检验有意义有意义指导实践指导实践?是否真正存在线性关系是否真正存在线性关系回归关系是否显著回归关系是否显著一、直线回归的变异来源y=a+bxy(x,y)y-yy-yy-y实际值与估计值之差,剩余或残差。y-y估计值与均值之差,它与回归系数的大小有关。检验线性回归系数的显著性,采用检验线
13、性回归系数的显著性,采用t t检验法检验法进行。进行。假 设H H0 0:=0=0H HA A:00检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的双的双变变量总体,以推断线性回归的显著性。量总体,以推断线性回归的显著性。(三)t检验依依变量变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Qy y的离均差,反映了的离均差,反映了y y的总变异程度,称的总变异程度,称为为y y的总平方和。的总平方和。说明未考虑说明未考虑x x与与y y的回归关系时的回归关系时y y的变异。的变异。反映了由
14、于反映了由于y y与与x x间存在直线关系所引起的间存在直线关系所引起的y y的变的变异程度,因异程度,因x x的的变异引起变异引起y y变异的平方和,称为变异的平方和,称为回归平方和。回归平方和。它它反映在反映在y y的总变异中由于的总变异中由于x x与与y y的直线关系,的直线关系,而使而使y y变异减小的部分,在总平方和中可以用变异减小的部分,在总平方和中可以用x x解释的部分。解释的部分。U U值大,说明回归效果好。值大,说明回归效果好。回归平方和回归平方和(regression sum of squares)regression sum of squares)U U误差因素引起的平方
15、和,反映了除去误差因素引起的平方和,反映了除去x x与与y y的直线的直线回归关系以外的其余因素使回归关系以外的其余因素使y y引起变化的大小。引起变化的大小。反映反映x x对对y y的线性影响之外的一切因素对的线性影响之外的一切因素对y y的变的变异的作用,也就是在总平方和中无法用异的作用,也就是在总平方和中无法用x x解释解释的部分。的部分。离回归平方和离回归平方和误差平方和,剩余平方和误差平方和,剩余平方和(residual sum of squares)residual sum of squares)Q Q在散点图上,各实测点离回归直线越近,在散点图上,各实测点离回归直线越近,Q Q值
16、值越小,说明直线回归的估计误差越小。越小,说明直线回归的估计误差越小。依依变量变量 y y的平方和,总平方和,的平方和,总平方和,SSSSy y,SS,SS总总回归平方和回归平方和 U U离回归平方和离回归平方和 Q Q直线回归分析中,回归自由度等于自变量直线回归分析中,回归自由度等于自变量的个数,只涉及到的个数,只涉及到1 1个自变量个自变量df回归1df总n-1df离回归n-2Q/n-2Q/n-2离离回归回归标准差标准差回归估计标准误回归估计标准误剩余标准差剩余标准差离回归方差离回归方差总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差:它是它是y y的本底水平,即的本底水平
17、,即x x对对y y没有任何作用时,没有任何作用时,y y的数量的数量表现。表现。xx:它描述了因变量它描述了因变量y y的取值改变中,由的取值改变中,由y y与自变量与自变量x x的线的线性关系所引起的部分,即可以由性关系所引起的部分,即可以由x x直接估计的部分。直接估计的部分。误差:它描述了因变量误差:它描述了因变量y y的取值改变由的取值改变由x x以外的可能与以外的可能与y y有有关的随机和非随机因素共同引起的部分,即不能由关的随机和非随机因素共同引起的部分,即不能由x x直接直接估计的部分。估计的部分。两个两个变量是否存在线性关系,可采用变量是否存在线性关系,可采用F F检验检验法
18、进行。法进行。总体回归截踞总体回归截踞总体回归系数总体回归系数随机误差随机误差若若x x与与y y间间不不存在直线关系存在直线关系,则总体回归系数,则总体回归系数=0=0;若若x x与与y y间间存在直线关系存在直线关系,则总体回归系数,则总体回归系数00假 设H H0 0:两两变量间变量间无无线性关系线性关系H HA A:两变量间两变量间有有线性关系线性关系在在无效假设存在下,回归方差与离回归无效假设存在下,回归方差与离回归方差的比值服从方差的比值服从F F分布。分布。df1=1df2=n-2H H0 0:黏虫孵化历期平均温度黏虫孵化历期平均温度x x与历期天数与历期天数y y之间之间 不存
19、在不存在线性关系线性关系H HA A:两变量间两变量间有有线性关系线性关系变异来源 df SS s2 F F0.05 F0.01 回归 1 353.6628 353.6628 89.89*5.99 13.74 离回归 6 23.6060 3.9343 总变异 7 377.2688df=n-2回归系数的标准误回归系数的标准误否定否定H H0 0:=0:=0,接受接受H HA A:0:0,认为黏虫孵认为黏虫孵化历期平均温度与历期天数间有真实直线化历期平均温度与历期天数间有真实直线回归关系。回归关系。同一概率值同一概率值F F(一尾一尾)值(值(dfdf1 1=1,df=1,df2 2=n-=n-2
20、 2)t t值(两尾)(值(两尾)(dfdf=n-=n-2 2)四、直线回归的区间估计点点估计估计四、直线回归的区间估计a和b的置信区间(一)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间(二)y/x 和单个和单个y y观测值置信区间图示观测值置信区间图示(三)(一)a和b的置信区间(一)a和b的置信区间df=2(一)a和b的置信区间总体回归截距总体回归截距的置信区间的置信区间(一)a和b的置信区间总体回归系数总体回归系数 的置信区间的置信区间95%95%的样本回归截的样本回归截距落在该区间内距落在该区间内95%95%的样本回归系的样本回归系数落在该区间内数落在该区间内(二
21、)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间不不包含随机误差包含随机误差由由回归方程预测回归方程预测x x为某为某一定值时一定值时y y的观测值所在区间,则的观测值所在区间,则y y观测值不仅受到观测值不仅受到y y和和b b的影响,也受到随机误差的影响。的影响,也受到随机误差的影响。y y总体的平均数总体的平均数单个单个y y值所在的区间值所在的区间x x点点估计估计(二)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间df=n-2y y总体的平均数总体的平均数单个单个y y值所在的区间值所在的区间x xy y总体的平均数总体的平均数黏虫孵化历期平均
22、温度为黏虫孵化历期平均温度为1515时,历期时,历期天数为多少天(取天数为多少天(取9595置信概率)?置信概率)?df=n-2y y总体的平均数总体的平均数x x单个单个y y值所在的区间值所在的区间单个单个y y值所在的区间值所在的区间某年的历期平均温度为某年的历期平均温度为1515时,该年的历时,该年的历期天数为多少天(取期天数为多少天(取9595置信概率)?置信概率)?(二)y/x 的置信区间和单个的置信区间和单个y y的预测区间的预测区间(三)y/x 和单个和单个y y观测值置信区间图示观测值置信区间图示正比反比愈愈靠近靠近 x x,对对y y总体平均值或单个总体平均值或单个y y的
23、的估计值就愈精确,而增大样本含量,扩估计值就愈精确,而增大样本含量,扩大大x x的取值范围亦可提高精确度。的取值范围亦可提高精确度。作作回归分析时要有实际意义。回归分析时要有实际意义。直线回归注意问题不能把毫无关联的两种现象勉强作回归不能把毫无关联的两种现象勉强作回归分析,即便有回归关系也不一定是因果分析,即便有回归关系也不一定是因果关系,还必须对两种现象的内在联系有关系,还必须对两种现象的内在联系有所认识,即能从专业理论上作出合理解所认识,即能从专业理论上作出合理解释或有所依据。释或有所依据。进行直线回归分析之前,绘制散点图。进行直线回归分析之前,绘制散点图。直线回归注意问题当观察点的分布有
24、直线趋势时,才适宜作直当观察点的分布有直线趋势时,才适宜作直线回归分析。线回归分析。散点图还能提示资料有无异常值,即对应于散点图还能提示资料有无异常值,即对应于残差绝对值特别大的观测数据。异常点的存残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的在往往对回归方程中的a和和b的估计产生较大的估计产生较大的影响。因此,需要复查此异常点的值。的影响。因此,需要复查此异常点的值。直线回归的适应范围一般以自变量的直线回归的适应范围一般以自变量的取值为限。取值为限。直线回归注意问题在在自变量范围内求出的估计值,一般称为内自变量范围内求出的估计值,一般称为内插插(interpolation);超过
25、自变量取值范围所超过自变量取值范围所计算出的估计值,称为外延计算出的估计值,称为外延(extrapolation)。若无充分理由证明超过自变量取值范围还是若无充分理由证明超过自变量取值范围还是直线,应该避免外延。直线,应该避免外延。描述两变量间的描述两变量间的依存依存关系。关系。直线回归的应用利用回归关系进行利用回归关系进行预测预测(forecast)forecast)。直线回归的应用将将自变量作为预报回子,代入方程对预自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体报量进行估计,其波动范围可按个体y y值值容许区间方法计算。容许区间方法计算。回归方程进行回归方程进行统计控制统
26、计控制(statistical control).statistical control).直线回归的应用 NO2浓浓度度Y(NO2浓度,mg/m3)=-0.064866+0.000133x(车流量,辆小时)第三节:直线相关 Linear Correlation一、相关系数和决定系数一、相关系数和决定系数二、相关系数的假设检验二、相关系数的假设检验三、相关系数的区间估计三、相关系数的区间估计一、相关系数和决定系数xy线性关系了解x和y相关以及相关的性质相关系数相关类型相关类型正相关负相关零相关IIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVIIIIIIIVIII
27、IIIIV直线相关的两个变量的相关程度和性质直线相关的两个变量的相关程度和性质乘积和乘积和互变量(1)1)单位问题单位问题(2)2)x x与与y y本身的变异不影响本身的变异不影响x x与与y y之间的相关性之间的相关性?r r两个变量的变异程度两个变量的度量单位两个变量的个数r r可以用来比较不同双变量的相关程度和性质。可以用来比较不同双变量的相关程度和性质。样本总体两个两个变量在相关系数计算变量在相关系数计算中的地位是中的地位是平等平等的,没有的,没有自变量和依变量之分自变量和依变量之分相关相关回归回归区别联系决定系数coefficient of determination变量变量x x引
28、起引起y y变异的回归平方和占变异的回归平方和占y y总变异平方和总变异平方和的比率的比率当当SSySSy固定时,回归平方和固定时,回归平方和U U的大小取决于的大小取决于r r2 2。回归平方和回归平方和U U是由于引入了相关变量而使总平方是由于引入了相关变量而使总平方和和SSySSy减少的部分。减少的部分。说明引入相关的效果好用 y 可以准确预测y值x与y完全相关。完全正相关完全负相关散点图上所有点必在一条直线上。回归一点作用也没有,即用x的线性函数完全不能预测y值的变化。x与y之间不存在直线相关关系,这时散点图分布紊乱,没有直线的趋势,但可能存在非线性关系。IIIIIIIVx x的线性函
29、数对预测的线性函数对预测y y值的变化有一定作值的变化有一定作用,但不能准确预测,说明用,但不能准确预测,说明y y还受其他还受其他因素(包括随机误差)的影响。因素(包括随机误差)的影响。相关系数相关系数(r)和决定系数和决定系数(r2)的区别的区别(1)(1)除去除去 r =1r =1和和0 0的情况外,的情况外,r r 2 2 r r,这样可这样可以防止对相关系数所表示的相关程度作夸张的解释。以防止对相关系数所表示的相关程度作夸张的解释。(2 2)r r可正可可正可负,负,r r2 2取取正,正,r r2 2一般只用于表示相关程一般只用于表示相关程度而不表示相关性质。度而不表示相关性质。温
30、度天数黏虫孵化历期平均温度与历期天数成负相关。黏虫孵化历期平均温度与历期天数成负相关。x x和和y y的变异有的变异有93.7493.74可用二者之间的线性关系可用二者之间的线性关系来解释。来解释。=0 xy(x1,y1)(x2,y2)(x3,y3)(xn,yn)P?二、相关系数的假设检验r是线性关系强弱的指标H H0 0:=0=0H HA A:00检验样本回归系数检验样本回归系数b b是否来自是否来自=0=0的双的双变变量总体,以推断线性回归的显著性。量总体,以推断线性回归的显著性。对于相关系数对于相关系数r r作显著性检验的无效假设为作显著性检验的无效假设为=0=0,即即测定测定r r来自
31、来自=0=0 总体的概率,也总体的概率,也就是判断就是判断r r所代表的总体是否存在直线相关。所代表的总体是否存在直线相关。总体相关系数=0相关系数相关系数r r的标准误的标准误()假设(2)水平(3)检验(4)推断H H0 0:=0:=0;H HA A:0:0选取显著水平选取显著水平在在显著水平上,否定显著水平上,否定H H0 0,接受接受H HA A;推断推断r r显著。显著。在在显著水平上,接受显著水平上,接受H H0 0,否定否定H HA A;推断推断r r不显著。不显著。r r经显著性检验的结果呈不显著时,经显著性检验的结果呈不显著时,便推断两变数间不存在相关关系,便推断两变数间不存
32、在相关关系,这时不能用这时不能用r r代表其相关密切程度。代表其相关密切程度。()假设(2)水平(3)检验(4)推断H H0 0:=0:=0;H HA A:0:0选取显著水平选取显著水平0.010.01否定否定H H0 0,接受接受H HA A;推断推断r r极显著,黏虫孵化历期温极显著,黏虫孵化历期温度与历期天数之间存在着极显著的直线相关关系。度与历期天数之间存在着极显著的直线相关关系。必然结果r与t符号相同。相关系数的假设检验可不计算相关系数的假设检验可不计算t t值,直接从附表值,直接从附表1212查出查出dfdf=n-2=n-2时时r r的临界值。的临界值。椰子树的产量数X(个)椰子树
33、的高度Y(尺)X(个)120 121 123 126 128Y(尺)21 23 22 25 24椰子树的产果树与树高之间椰子树的产果树与树高之间无无直线相关关系。直线相关关系。当样本太小时,即使当样本太小时,即使r r值达到值达到0.79960.7996,样本也可能来,样本也可能来自总体相关系数自总体相关系数=0=0的总体。的总体。不能直观地由不能直观地由r r值判断两变数间的相关密切程度。值判断两变数间的相关密切程度。试验或抽样时,所取的样本容量试验或抽样时,所取的样本容量n n大一些,由此大一些,由此计算出来的计算出来的r r值才能参考价值。值才能参考价值。12三、相关系数的区间估计r r
34、值经假设检验达到显著水平,需要值经假设检验达到显著水平,需要由由r r估计总体相关系数估计总体相关系数所在的区间。所在的区间。y(x1,y1)(x2,y2)(x3,y3)(xn,yn)X0两变量无直线相关关系 0两变量有直线相关关系正态分布黏虫孵化历期温度与历期天数的总体相关系数黏虫孵化历期温度与历期天数的总体相关系数的的9595的置信区间为(的置信区间为(-0.9944-0.9944,-0.8294-0.8294)。)。相关与回归的联系相关与回归的联系回归方程的显著性回归方程的显著性回归系数的显著性回归系数的显著性相关系数的显著性相关系数的显著性一致一致xy三者三者同时显著或不显著。同时显著
35、或不显著。r r与与b b的符号一致,由两变量离均差乘积的符号一致,由两变量离均差乘积之和的符号决定。之和的符号决定。相关与回归的联系相关与回归的联系r:+,两变量间的相互关系是同向变化的。两变量间的相互关系是同向变化的。b:+,x增(减)一个单位,增(减)一个单位,y平均值增平均值增(减)(减)b个单位。个单位。相关与回归的联系相关与回归的联系用回归解释相关。相关与回归的联系相关与回归的联系y关于x的直线回归系数x 关于y的直线回归系数xy回归相关x x是可以精确是可以精确测量和严格测量和严格控制的变量控制的变量。y y服从正态分布。服从正态分布。x x服从正态分布。服从正态分布。y y服从
36、正态分布。服从正态分布。I型回归II型回归相关与回归的区别相关与回归的区别资料要求xy两两变量间依存变化的数量关系变量间依存变化的数量关系两两变量间相关关系变量间相关关系回归相关相关与回归的区别相关与回归的区别应用xy单向xyxy双向回归系数与相关系数的正负号都由两变量回归系数与相关系数的正负号都由两变量离均差积之和的符号决定,所以同一资料离均差积之和的符号决定,所以同一资料的的b b与其与其r r的符号相同。的符号相同。回归系数有单位,形式为(应变量单位回归系数有单位,形式为(应变量单位/自变量单位),相关系数没有单位。自变量单位),相关系数没有单位。相关系数的范围在相关系数的范围在-1-1
37、+1+1之间,而回归系之间,而回归系数没有这种限制。数没有这种限制。有些资料用相关表示较适宜,比如兄弟与有些资料用相关表示较适宜,比如兄弟与姐妹间的身长关系、人的身长与前臂长之姐妹间的身长关系、人的身长与前臂长之间的关系等资料。间的关系等资料。有些资料用相关和回归都适宜,此时须视有些资料用相关和回归都适宜,此时须视研究需要而定。研究需要而定。就一般计算程序来说,是先求出相关系数就一般计算程序来说,是先求出相关系数r r并对其进行假设检验,如果并对其进行假设检验,如果r r显著并有进行显著并有进行回归分析之必要,再建立回归方程。回归分析之必要,再建立回归方程。作相关与回归分析要有实际意义。作相关
38、与回归分析要有实际意义。作相关与回归分析要有实际意义。作相关与回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作相关不要把毫无关联的两个事物或现象用来作相关或回归分析。或回归分析。*如儿童身高的增长与小树的增长,作相关分析如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高推算是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许算得小树高的回归方程则更无实际意义。也许算得的的r r、b b是显著的,也是没有意义的。是显著的,也是没有意义的。相关分析只是以相关系数来描述两个变量间相互关相关分析只是以相关系数来描述两个变量间相互关系的密切程度
39、和方向,并不能阐明两事物或现象间系的密切程度和方向,并不能阐明两事物或现象间存在联系的本质。存在联系的本质。对相关分析的作用要正确理解。对相关分析的作用要正确理解。*相关并不一定就是因果关系,切不可单纯依靠相关相关并不一定就是因果关系,切不可单纯依靠相关系数或回归系数的显著性系数或回归系数的显著性“证明证明”因果关系之存在。因果关系之存在。要证明两事物间的因果关系,必须凭籍专业知识从要证明两事物间的因果关系,必须凭籍专业知识从理论上加以阐明。但是,当事物间的因果关系未被理论上加以阐明。但是,当事物间的因果关系未被认识前,相关分析可为理论研究提供线索。认识前,相关分析可为理论研究提供线索。适合相
40、关和回适合相关和回归归分析的分析的资资料通常有两种料通常有两种一个变量X是选定的,另一个变Y是从正态分布的总体中随机抽取的。*1回归分析由一个变量推算另一个变量由一个变量推算另一个变量说明两变量间的相互关系说明两变量间的相互关系两变量X、Y(或X1、X2)都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。2回归分析相关分析在回归分析中,由X推算Y与由Y推算X的回归方程是不同的,不可混淆。必须正确选定自变量与应变量必须正确选定自变量与应变量。一般说,事物的原因作自变量一般说,事物的原因作自变量X X,当事物的当事物的因果关系不很明确时,选误差较小的即个体因果关系不很明确时,选误差较小的即个体变异小的变量作自变量变异小的变量作自变量X X,以推算应变量以推算应变量Y Y。回归方程的适用范围有其限度,一般仅回归方程的适用范围有其限度,一般仅适用于自变量适用于自变量X X的原数据范围内,而不的原数据范围内,而不能任意外推。因为我们并不知道在这些能任意外推。因为我们并不知道在这些观察值的范围之外,两变量间是否也呈观察值的范围之外,两变量间是否也呈同样的直线关系。同样的直线关系。