《统计学-相关与回归.ppt》由会员分享,可在线阅读,更多相关《统计学-相关与回归.ppt(37页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第七章 回归与相关 regression and correlation 变量间关系问题:年龄身高、肺活量体重、药物剂量与动物死亡率等。第一节直线回归第二节直线相关第三节Spearman 等级相关 两个关系:(1)依存关系:应变量(dependent variable)Y随自变量(independentvariable)X变化而变化。回归分析(2)互依关系:应变量Y与自变量 X间的彼此关系 相关分析实例散点图第一节直线回归函数关系:确定。例如园周长与半径:y=2r。回归关系:不确定。例如血压和年龄的关系,称为直线回归(linearregression)。目的:建立直线回归方程(linearre
2、gressionequation)一、直线回归方程 一般表达式:a:截距(intercept),直线与Y轴交点的纵坐标。b:斜率(slope),回归系数(regressioncoefficient)。意义:X每改变一个单位,Y平均改变b个单位。b0,Y随X的增大而增大(减少而减少)斜上;b0,Y随X的增大而减小(减少而增加)斜下;b=0,Y与X无直线关系水平。b越大,表示Y随X变化越快,直线越陡峭。二、回归方程参数的计算 最小二乘法原则(leastsquaremethod):使各散点到直线的纵向距离的平方和最小。即使最小。因为直线一定经过 因为直线一定经过“均数 均数”点 点散点图编号 母X
3、脐Y X2Y2XY1 1.21 3.90 1.4641 15.2100 4.7190 2 1.30 4.50 1.6900 20.2500 5.8500 3 1.39 4.20 1.9321 17.6400 5.8380 4 1.42 4.83 2.0164 23.3289 6.8586 5 1.47 4.16 2.1609 17.3056 6.1152 6 1.56 4.93 2.4336 24.3049 7.6908 7 1.68 4.32 2.8224 18.6624 7.2576 8 1.72 4.99 2.9584 24.9001 8.5828 9 1.98 4.70 3.9204
4、22.0900 9.3060 10 2.10 5.20 4.4100 27.0400 10.9200 合计 15.83 45.73 25.8083 210.7319 73.1380 SX SY SX2SY2SXY 回归参数计算的实例 三、回归系数的假设检验b0原因:由于抽样误差引起,总体回归系数=0存在回归关系,总体回归系数 0公式,n2Sb为回归系数的标准误SY.X为Y的剩余标准差扣除X的影响后Y的变异程度。(一)t 检验;(二)方差分析编号 母X 脐Y X2Y2XY1 1.21 3.90 1.4641 15.2100 4.7190 2 1.30 4.50 1.6900 20.2500 5.
5、8500 3 1.39 4.20 1.9321 17.6400 5.8380 4 1.42 4.83 2.0164 23.3289 6.8586 5 1.47 4.16 2.1609 17.3056 6.1152 6 1.56 4.93 2.4336 24.3049 7.6908 7 1.68 4.32 2.8224 18.6624 7.2576 8 1.72 4.99 2.9584 24.9001 8.5828 9 1.98 4.70 3.9204 22.0900 9.3060 10 2.10 5.20 4.4100 27.0400 10.9200 合计 15.83 45.73 25.808
6、3 210.7319 73.1380 SX SY SX2SY2SXYXY的离均差平方和的分解几个平方和的意义再看公式:SSSS剩剩的另一种解法的另一种解法编号(1)X Y(2)(3)(4)(5)=(3)-(4)(6)=(5)21 1.21 3.90 4.2010-0.3010 0.0906 2 1.30 4.50 4.2908 0.2092 0.0438 3 1.39 4.20 4.3805-0.1805 0.0326 4 1.42 4.83 4.4104 0.4196 0.1761 5 1.47 4.16 4.4603-0.3003 0.0902 6 1.56 4.93 4.5501 0.3
7、799 0.1443 7 1.68 4.32 4.6698-0.3498 0.1244 8 1.72 4.99 4.7096 0.2804 0.0786 9 1.98 4.70 4.9689-0.2689 0.0723 10 2.10 5.20 5.0886 0.1114 0.0124 合计 15.83 45.73 45.7300 0.0000 0.8632(二二)方差分析方差分析四、直线回归方程的区间估计(二二)的区间估计的区间估计(三三)个体个体的容许区间估计的容许区间估计9595的可信区间与的可信区间与个体个体的容许区间图示的容许区间图示五、回归方程的应用1.预测(forecast)(给
8、定X值,估计Y)2.控制(给定Y值范围,求X值范围)第二节直线相关回归-变量间的依存关系相关-变量间的互依关系 直线相关(linear correlation):简单相关(simplecorrelation),用于双变量正态分布资料。图74 相关系数示意图 散点呈椭圆形分布,X、Y 同时增减-正相关(positive correlation);X、Y 此增彼减-负相关(negative correlation)。散点在一条直线上,X、Y 变化趋势相同-完全正相关;反向变化-完全负相关。图75 相关系数示意图 X、Y 变化互不影响-零相关(zero correlation)一、相关系数概念 相关
9、系数(correlationcoefficient),又称积差相关系数(coefficientofproductmomentcorrelation),或 Pearson 相关系数(软件中常用此名称)说明相关的密切程度和方向的指标。r样本相关系数r无单位,-1r 1。r 值为正正相关,为负 负相关;(与回归系数b的符号相同)|r|=1-完全相关,|r|=0-零相关。二、相关系数的意义三、相关系数的计算 四、相关系数的假设检验 r0原因:由于抽样误差引起,=0存在相关关系,0=0.05公式,n-2Sr-相关系数的标准误 注意:对于同一资料,tbtr,检验完全等价五、总体相关系数的区间估计区别:六、
10、直线回归与相关的区别与联系六、直线回归与相关的区别与联系1.资料:X、Y服从双变量正态分布 Y正态随机变量,X为选定变量回归2.应用:回归由一个变量值推算另一个变量值相关只反映两变量间相互关系相关3.回归系数有单位,相关系数无单位联系:七、直线回归与相关的应用注意事项 要有实际意义 不能任意“外延”绘制散点图第三节等级相关rank correlation 适用资料:不服从双变量正态分布总体分布类型未知原始数据用等级表示等级相关系数 rs(即SpearmanCorrelationCoefficient)反映两变量间相关的密切程度与方向。表7-3等级相关系数计算表综合评分 存活天数 编号(1)X(2)秩次U(3)Y(4)秩次V(5)d(6)=(3)-(5)d 2(7)=(6)21234567798091907087922365147453016242825147623541-5-342-40625916416036合计 106注意:相同秩次较多时应校正rs。Spearman等级相关系数的另一种计算方法 分别将X与Y从小到大编秩,若遇相同值取平均秩次;然后按前面介绍的Pearson相关系数的计算方法求解 当相同秩次较多时,计算反而更简单,且结果与校正结果相同。(谢谢!)