《相关与回归分析课件.ppt》由会员分享,可在线阅读,更多相关《相关与回归分析课件.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第十章 线性相关与回归 regression and correlation 叶孟良变变量量间间关关系系问问题题:年年龄龄身身高高、肺肺活活量量体体重重、药药物物剂剂量与动物死亡率等。量与动物死亡率等。两种关系:两种关系:依存关系:依存关系:应变量应变量(dependent variable)Y 随自变量随自变量(independent variable)X变化而变化。变化而变化。回归分析回归分析 互依关系:互依关系:变量变量Y与变量与变量 X间间的彼此依赖关系的彼此依赖关系。相关分析相关分析线性相关线性相关线性回归线性回归内容:直线相关直线相关相关相关 -变量间的互依关系变量间的互依关系 直
2、直线线相相关关(linear correlation):简简单单相相关关(simple correlation),用于,用于双变量双变量正态分布资料。正态分布资料。散点图散点图 为了确定相关变量之间的关系,首先应为了确定相关变量之间的关系,首先应该收集一些数据,这些数据应该是成对的。例该收集一些数据,这些数据应该是成对的。例如,每人的身高和体重。然后在直角坐标系上如,每人的身高和体重。然后在直角坐标系上描述这些点,这一组点集称为散点图。描述这些点,这一组点集称为散点图。为了研究父亲与成年儿子身为了研究父亲与成年儿子身高之间的关系,卡尔高之间的关系,卡尔.皮尔皮尔逊测量了逊测量了1078对父子的
3、身高。对父子的身高。把把1078对数字表示在坐标上,对数字表示在坐标上,如图。用水平轴如图。用水平轴X上的数代上的数代表父亲身高,垂直轴表父亲身高,垂直轴Y上的上的数代表儿子的身高,数代表儿子的身高,1078个个点所形成的图形是一个散点点所形成的图形是一个散点图。它的形状象一块橄榄状图。它的形状象一块橄榄状的云,中间的点密集,边沿的云,中间的点密集,边沿的点稀少,其主要部分是一的点稀少,其主要部分是一个椭圆。个椭圆。图图10-2 10-2 相关系数示意图相关系数示意图 散点呈椭圆形分布,散点呈椭圆形分布,X X、Y Y 同时同时增减增减-正正相关相关(positive correlation)
4、positive correlation);X X、Y Y 此增彼减此增彼减-负负相关相关(negative correlation)(negative correlation)。散点在一条直线上,散点在一条直线上,X X、Y Y 变化趋势变化趋势相同相同-完全正相关完全正相关;反向反向变化变化-完全负相关。完全负相关。图图10-2 10-2 相关系数示意图相关系数示意图 X X、Y Y 变化互不影响变化互不影响-零零相关相关(zero correlation)(zero correlation)非线性相关非线性相关一、一、相关系数概念相关系数概念 相相关关系系数数(correlation c
5、oefficient),又又称称积积差差相相关关系系数数(coefficient of product moment correlation),或或 Pearson Pearson 相相关关系系数数(软软件件中中常常用此名称)用此名称)说明相关的说明相关的密切程度密切程度和和方向方向的指标。的指标。r 样本相关系数样本相关系数r无单位,无单位,-1 r 1。r 值为正值为正 正相关正相关,为负为负 负相关;负相关;(与后面回归系数(与后面回归系数b b的符号相同)的符号相同)|r|=1-完全相关,完全相关,|r|=0-零相关。零相关。二、相关系数的意义二、相关系数的意义三、三、相关系数的计算相
6、关系数的计算 例例10.1 从男青年总体中随机抽取从男青年总体中随机抽取1111名男青年名男青年组成样本,分别测量每个男青年的身高和前臂长,组成样本,分别测量每个男青年的身高和前臂长,测量结果如表测量结果如表10-110-1所示,试计算身高与前臂长之所示,试计算身高与前臂长之间的相关系数。间的相关系数。编号身高(x)前臂长(y)X yx2y211704779902890022092173427266299291764316044704025600193641554163552402516815173478131299292209618850940035344250071784783663684
7、2209818346841833489211691804988203240024011016543709527225184911166443174285612116合计18915008618532608122810表10-1 12名男青年身高与前臂长的测量结果散点图四、四、相关系数的假设检验相关系数的假设检验 r0原因:原因:由于抽样误差引起,由于抽样误差引起,=0 存在相关关系,存在相关关系,0公式公式,n-2Sr-相关系数的标准误相关系数的标准误 五、总体相关系数五、总体相关系数 的区间估计(了解)的区间估计(了解)六、进行线性相关的注意事项六、进行线性相关的注意事项1、相关系数相关系数0
8、表示正相关,相关系数表示正相关,相关系数0,Y随随X的的增大增大而而增大(减少增大(减少而而减少)减少)斜上斜上;bt 0.01(9)=3.250 p0.01 意:两种检验是完全等价的,即意:两种检验是完全等价的,即四、进行线性回归分析的注意事项四、进行线性回归分析的注意事项1、资料要求:满足线性、独立、正态、等方差四个条件2、要有实际意义3、须对回归系数进行假设检验4、使用回归方程计算估计值时,不可以把估计范围扩大到自变量的取值范围以外。区别:区别:五、直线回归与相关的区别与联系五、直线回归与相关的区别与联系五、直线回归与相关的区别与联系五、直线回归与相关的区别与联系 1.资料:资料:X、Y服从双变量正态分布服从双变量正态分布 Y正态随机变量,正态随机变量,X为选定变量为选定变量 回归回归2.2.应用应用:回归回归 由一个变量值推算另一个变量值由一个变量值推算另一个变量值 相关相关 只反映两变量间互依关系只反映两变量间互依关系 相关相关3.3.回归系数有单位回归系数有单位,相关系数无单位相关系数无单位联系:联系:六、直线回归与相关的六、直线回归与相关的应用注意事项应用注意事项 要有实际意义要有实际意义 不能任意不能任意“外延外延”绘制绘制散点图散点图