《(51)--简单线性回归-应用条件及分析步骤.ppt》由会员分享,可在线阅读,更多相关《(51)--简单线性回归-应用条件及分析步骤.ppt(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、简单线性回归简单线性回归简单线性回归定义:根据实测值建立线性回归方程式,描述两个变量间数量变化的依存关系的统计分析方法应用条件:线性(两变量间变化呈线性趋势)、独立(各观察值相互独立)、正态(服从正态分布)、方差齐(两变量的总体方差相等)类型:型回归和型回归一是其中一变量为选定变量,另一变量为随机变量,要求选定变量在取值范围内取某值时,另一变量的取值是随机的,并且呈正态分布,如年龄和身高,当年龄取某一特定值时,身高的取值是随机的,这类回归称为I型回归;二是两个变量都是随机变量,要求两变量中任一变量在某一取值时,另一变量的取值是随机的,并且呈正态分布,称双随机变量正态分布,如身高和体重,身高取某
2、一特定值时,体重的取值是随机的,若体重取某特定值时,身高的取值是随机的,这类回归称为II型回归。简单线性回归的应用描述两变量的数量依存变化关系 利用直线回归方程中一个容易测得的变量去推算另一个不易测得的变量(Y值的容许空间)如头发中某种微量元素的含量去推算人体血液中该元素的含量。利用回归方程进行统计控制(逆估计)如要求 y 变量在某一范围内波动时,可通过控制自变量x的取值来实现。如:大气NO2(y)含量 与 汽车流量(x)关系直线回归方程x x:自变量:自变量 :y y的估计值(的估计值(y y:应变量):应变量)b b:回归系数:回归系数 a a:常数:常数 ua,常数项,是回归直线在Y轴上
3、的截距,其统计意义是当X取0时相应Y的均数估计值ub,样本回归系数(coefficient of regression),是回归直线的斜率,其统计学意义是当X变化一个单位时Y的平均增加或减少改变的估计值ub0,Y随X的增大而增大ub0,Y随X的增大而减小ub=0,Y与X无直线关系,回归直线与X轴平行计算分析步骤最小二乘法(least squared estimation):各实测点(xi,yi)到回归直线的纵向距离的平方和最小残差(residual)/剩余值:实测值Y与假定的回归直线上的估计值 的纵向距离b的计算公式a的计算公式,回归直线必过点(,),则有21名肝癌患者血清胆固醇与三酰甘油相关
4、性研究(mmol/L)患者序号血清胆固醇三酰甘油患者序号血清胆固醇三酰甘油14.891.48123.420.7923.411.01132.930.8335.701.30145.181.1146.841.78154.561.1055.010.89164.600.9763.980.90175.231.4674.231.33183.570.8484.230.89196.111.4592.580.49203.631.15104.401.24213.890.78113.771.00(1)绘制散点图血清胆固醇血清胆固醇三三酰酰甘油甘油2.003.004.005.006.007.008.000.000.501.001.502.00肝癌患者血清胆固醇与三酰甘油关系散点图(2)求X、Y、X、Y、XY分别等于分别等于92.36,22.79,428.31,26.58,105.43(3)计算X、Y的均数 、,离均差平方和lXX,lYY与离均差积和lXYlXX=22.10 lYY=1.85 lXY=5.20(4)求回归系数b、截距a(5)列出回归方程(6)绘制回归直线血清胆固醇血清胆固醇三三酰酰甘油甘油(1.00)0.001.002.003.004.005.006.007.008.000.000.501.001.502.00(0 0,0.0502,0.0502)(-0.2133,0-0.2133,0)