简单线性回归精选文档.ppt-淘文阁

资源描述

《简单线性回归精选文档.ppt》由会员分享，可在线阅读，更多相关《简单线性回归精选文档.ppt（75页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、简单线性回归本讲稿第一页，共七十五页本章内容本章内容第一节第一节简单线性回归简单线性回归第二节第二节线性回归的应用线性回归的应用第三节第三节残差分析残差分析第四节第四节非非线性回归线性回归本讲稿第二页，共七十五页双变量计量资料：双变量计量资料：每个个体有两个变量值每个个体有两个变量值总体：总体：无限或有限对变量值无限或有限对变量值样本：样本：从总体随机抽取的从总体随机抽取的n n对变量值对变量值（X1,Y1）,（X2,Y2）,（Xn,Yn）目的：目的：研究研究X X和和Y Y的数量关系的数量关系方法：方法：回归与相关回归与相关简单、基本简单、基本直线回归、直线相关直线

2、回归、直线相关第一节第一节简单线性回归简单线性回归本讲稿第三页，共七十五页英国人类学家 F.Galton首次在自然遗传一书中，提出并阐明了“相关”和“相关系数”两个概念，为相关论奠定了基础。其后，他和英国统计学家 Karl Pearson对上千个家庭的身高、臂长、拃长（伸开大拇指与中指两端的最大长度）做了测量，发现发现：历史背景：本讲稿第四页，共七十五页儿子身高（Y，英寸）与父亲身高（X，英寸）存在线性关系：。也即高个子父代的子代在成年之后的身高平均来说不是更高，而是稍矮于其父代水平，而矮个子父代的子代的平均身高不是更矮，而是稍高于其父代水平。Galton将这种趋向于种族稳定的现象称之“

3、回归”本讲稿第五页，共七十五页 “回归”已成为表示变量之间某种数量依存关系的统计学术语，相关并且衍生出“回归方程”“回归系数”等统计学概念。如研究糖尿病人血糖与其胰岛素水平的关系，研究儿童年龄与体重的关系等。本讲稿第六页，共七十五页线性回归的概念及其统计描述线性回归的概念及其统计描述本讲稿第七页，共七十五页直线回归的概念目的：目的：研究因变量研究因变量Y对自变量对自变量X的数量依的数量依存关系。存关系。特点：特点：统计关系。统计关系。X值和值和Y的的均数均数的关系，的关系，不同于一般数学上的不同于一般数学上的X 和和Y的函数关系的函数关系本讲稿第八页，共七十五页为了直观地说明直线回归的概

4、念，以15名健康人凝血酶浓度（X）与凝血时间(Y)数据（表12-1）进行回归分析，得到图12-1所示散点图（scatter plot）本讲稿第九页，共七十五页No.123456789101112131415X1.11.21.00.91.21.10.90.61.00.91.10.91.11.00.7Y141315151314161714161516141517本讲稿第十页，共七十五页在定量描述健康人凝血酶浓度（X）与凝血时间(Y)数据的数量上的依存关系时，将凝血酶浓度称为自变量(independent variable)，用 X 表示；凝血时间称为因变量(dependent va

5、riable)，用 Y 表示本讲稿第十一页，共七十五页本讲稿第十二页，共七十五页由图12-1可见，凝血时间随凝血酶浓度的增加而减低且呈直线趋势，但并非所有点子恰好全都在一直线上，此与两变量间严格的直线函数关系不同，称为直线回归（linear regression）,其其方方程程叫叫直直线线回回归归方方程程，以以区区别别严严格格意意义义的的直直线线方方程。回归是回归分析中最基本、最简单的一种，故又称简单回归。程。回归是回归分析中最基本、最简单的一种，故又称简单回归。本讲稿第十三页，共七十五页样本线回归方程样本线回归方程为各X处Y的总体均数的估计。简单线性回归模型本讲稿第十四页，共七十

6、五页1a 为回归直线在为回归直线在 Y 轴上的截距轴上的截距a 0，表表示示直直线线与与纵纵轴轴的的交交点点在在原原点的上方点的上方a 0，直线从左下方走向右上方，直线从左下方走向右上方，Y 随随 X 增大而增大；增大而增大；b0，直线从左上方走向右下方，直线从左上方走向右下方，Y 随随 X 增大而减小；增大而减小；b=0，表示直线与，表示直线与 X 轴平行，轴平行，X 与与Y 无直线关系无直线关系b 的统计学意义是：的统计学意义是：X 每增加每增加(减减)一个一个单位，单位，Y 平均改变平均改变b个单位个单位本讲稿第十六页，共七十五页回归模型的前提假设回归模型的前提假设o线性回归模型的前提

7、条件是：线性线性(linear)独立独立(independent)正态正态(normal)等方差等方差(equal variance)本讲稿第十七页，共七十五页本讲稿第十八页，共七十五页本讲稿第十九页，共七十五页残差(residual)或剩余值，即实测值Y与假定回归线上的估计值的纵向距离。求解a、b实际上就是“合理地”找到一条能最好地代表数据点分布趋势的直线。原则：最小二乘法(least sum of squares)，即可保证各实测点至直线的纵向距离的平方和最小回归参数的估计回归参数的估计最小二乘原则最小二乘原则本讲稿第二十页，共七十五页回归参数的估计方法回归参数的估计方法本讲稿

8、第二十一页，共七十五页本例：n=15 X=14.7 X2=14.81 Y=224 XY=216.7 Y2=3368本讲稿第二十二页，共七十五页本讲稿第二十三页，共七十五页本讲稿第二十四页，共七十五页解题步骤本讲稿第二十五页，共七十五页3、计算有关指标的值4、计算回归系数和截距5、列出回归方程本讲稿第二十六页，共七十五页此直线必然通过点此直线必然通过点(,)(,)且与纵坐标轴相交于且与纵坐标轴相交于截距截距a a。如果散点图没有从坐标系原点开始，。如果散点图没有从坐标系原点开始，可在自变量实测范围内远端取易于读数的可在自变量实测范围内远端取易于读数的值代入回归方程得到一个点的坐标，连接此值代

9、入回归方程得到一个点的坐标，连接此点与点点与点(,)(,)也可绘出回归直线。也可绘出回归直线。绘制回归直线绘制回归直线本讲稿第二十七页，共七十五页总体回归系数总体回归系数的的的统计推断样本回归系数样本回归系数b的标准误的标准误本讲稿第二十八页，共七十五页回归方程的假设检验建立样本直线回归方程，只是完成了统计分析中两变量关系的统计描述，研究者还须回答它所来自的总体的直线回归关系是否确实存在，即是否对总体有？本讲稿第二十九页，共七十五页本讲稿第三十页，共七十五页本讲稿第三十一页，共七十五页1方差分析本讲稿第三十二页，共七十五页Y的离均差，总变异残差回归的变异本讲稿第三十三页，共七十五页数理统

10、计可证明：本讲稿第三十四页，共七十五页上式用符号表示为式中本讲稿第三十五页，共七十五页本讲稿第三十六页，共七十五页上述三个平方和，各有其相应的自由度，并有如下的关系：本讲稿第三十七页，共七十五页如果两变量间总体回归关系确实存在，回归的贡献就要大于随机误差，大到何种程度时可以认为具有统计意义，可计算统计量F:本讲稿第三十八页，共七十五页式中本讲稿第三十九页，共七十五页t 检验本讲稿第四十页，共七十五页（1）方差分析本讲稿第四十一页，共七十五页方差分析表本讲稿第四十二页，共七十五页（2）t 检验参数的意义是：若自变量X增加一个单位，反因变量Y的平均值便增加本讲稿第四十三页，共七十五

11、页注意：本讲稿第四十四页，共七十五页总体回归系数的可信区间利用上述对回归系数的t检验，可以得到的1双侧可信区间为本讲稿第四十五页，共七十五页本例b=-6.9802,自由度=13，t0.05,13=2.16，Sb=0.78655,代入公式（12-7）得参数的95%置信区间为 =（-8.6791 -5.2813）本讲稿第四十六页，共七十五页本讲稿第四十七页，共七十五页第二节线性回归的应用（估计和预测）本讲稿第四十八页，共七十五页反映其抽样误差大小的标准误为本讲稿第四十九页，共七十五页o例12-1中，第一观测值X1=1.1，0.4994，0.404，代入（12.8）式获得第一观测点X1对应

12、的的标准误为 0.1599Y的总体均数的95%置信区间为 14.0957(2.16)(0.1599)（13.7502，14.4412）本讲稿第五十页，共七十五页实测值实测值预测Y的均值Y的均值的标准误Y的均值的95%置信区间Y值的95%预测区间残差对象实测值 X实测值 Y预测值均值均值的标准误Y均值的95%CIY值的95%预测区间残差下限上限下限上限11.11414.09570.159913.750214.441212.961815.2297-0.095721.21313.39770.215912.931313.864112.221214.5741-0.397731.01514.79370.

13、130014.512815.074713.677715.90970.206340.91515.49170.143615.181515.802014.368016.6155-0.491751.21313.39770.215912.931313.864112.221214.5741-0.397761.11414.09570.159913.750214.441212.961815.2297-0.095770.91615.49170.143615.181515.802014.368016.61550.508380.61717.58580.325616.882518.289216.296918.8747

14、-0.585891.01414.79370.130014.512815.074713.677715.9097-0.7937100.91615.49170.143615.181515.802014.368016.61550.5083111.11514.09570.159913.750214.441212.961815.22970.9043120.91615.49170.143615.181515.802014.368016.61550.5083131.11414.09570.159913.750214.441212.961815.2297-0.0957141.01514.79370.130014

15、.512815.074713.677715.90970.2063150.71716.88780.255316.336317.439315.675118.10050.1122本讲稿第五十一页，共七十五页o以上是给定某一X值时所对应的总体均数的置信区间。当同时考虑X的所有可能取值时，总体均数的点估计就是根据样本算得的回归直线 o（1-）置信区间的上下限连起来形成一个弧形区带，称为回归直线的（1-）置信带（confidence band）。同样，因为其标准误是X的函数，所以在均数（）点处置信带宽度最小，越远离该均数点，置信带宽度越大。本讲稿第五十二页，共七十五页o图12-4中，左图显示位于最小二乘回

16、归线上下两侧的两条弧形虚线为总体回归线的（1-）置信区带。右图的实线表示可能的总体回归线，它们落在弧形虚线所确定的置信带内。o（1-）置信带的意义是：在满足线性回归的假设条件下，可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为（1-）本讲稿第五十三页，共七十五页本讲稿第五十四页，共七十五页本讲稿第五十五页，共七十五页o以第一观测点数据（X1=1.1）点为例，该点预测值的标准差为 o =0.52489182 o第一数据点的预测区间为：14.0957(2.16)(0.0.5249)=12.961815.2297o当同时考虑X的所有可能取值时，个体Y值的95%预测区间形成一个带子，称为

17、Y值的95%预测带，它比总体回归线95%置信带更宽。图12-5和图12-6同时显示个体Y值的预测带与总体回归线的置信带，可见，在相同信度下，个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。本讲稿第五十六页，共七十五页PICI本讲稿第五十七页，共七十五页决定系数(coefficient of determination)定义为回归平方和与总平方和之比，计算公式为：取值在0到1之间且无单位，其数值大小反映了回归贡献的相对程度，也就是在Y的总变异中回归关系所能解释的百分比。本讲稿第五十八页，共七十五页本讲稿第五十九页，共七十五页第三节第三节残差分析残差分析 o残差残差（residual）是

18、指观测值Yi与回归模型拟合值之差 o 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系，评价实际资料是否符合回归模型假设，识别异常点等。o例如，第一数据点的残差e1=14-14.0957=-0.0957，如此类推，计算出各数据点的残差值示于表12-2的第10列中。将第10列的残差减去其均数，除以其标准差，便得标准化残差。本讲稿第六十页，共七十五页若以反因变量取值Yi为横坐标，以标准化残差为纵坐标，构成的散点图如图12-7所示。类似地，也可以自变量取值Xi为横坐标,以标准化残差为纵坐标，构成的散点图。这类散点图统称为标准化残差图。本讲稿第六十一页，共七十五页

19、o图12-8给出的是以自变量取值为纵坐标，以残差为横坐标的残差图的常见类型。其中，图(e)显示残差呈随机分布；图(a)、(b)和(f)表示残差不满足方差齐性条件；图(c)显示存在非线性关系；图(d)显示有的点处于2倍标准差以外，可能是异常点。本讲稿第六十二页，共七十五页本讲稿第六十三页，共七十五页第四节第四节非线性回归非线性回归o非线性回归要比线性回归更能充分地表达变量间的关系。当今线性回归之所以比非线性回归应用甚多，原因在于无论从数学理论还是计算方法，线性回归都比非线性回归模型简单得多。本讲稿第六十四页，共七十五页o通过自变量的变换实现线性化通过自变量的变换实现线性化实践中有两类非线性关系

20、，一类是通过自变量X的适当变换可线性化的，另一类是不可能通过自变量X的变换实现线性化的 X数据变换不能线性化的关系不能线性化的关系本讲稿第六十五页，共七十五页变换自变量实现线性回归步骤变换自变量实现线性回归步骤 1.将观测数据(Xi,Yi),i=1,2,n作散点图，观察散点分布特征类似于何种函数类型；2.按照所选定的函数进行相应的变量变换；3.对变换后的数据用常规最小二乘法（OLS）作线性模型的参数估计。4.一般拟合多个相近的模型，然后通过对各个模型的拟合优度评价挑选较为合适的模型。本讲稿第六十六页，共七十五页o例12-2 为了研究某药物浓度与肾上腺素释放的量关系，选取10个给药物浓度水平，每

21、种药物剂量水平上重复5次试验，观测结果如表12-3所示。欲用合适的回归模型描述该药品剂量与反应的规律本讲稿第六十七页，共七十五页药物剂量（mg）肾上腺素释放量（pg/ml）1519.2614.2917.6018.3616.532021.2021.7820.7720.6523.382521.7722.6122.7021.1721.653023.4723.2221.7424.0224.053523.8825.3222.9024.8423.704025.2724.6924.6724.4825.244524.2024.9425.5225.0227.435027.9825.8826.6726.3125

22、.945527.4224.9126.4228.2425.496028.4127.0929.0428.8527.89本讲稿第六十八页，共七十五页本讲稿第六十九页，共七十五页o由结果可见：在所拟合的三种模型中，以x对数函数回归的效果最佳，该模型拟合的残差均方最小，决定系数最大模型名称回归方程MSEF值P值R2值简单线性1.91786212.480.00010.8157对数函数1.39592309.88.00010.8659二次函数2.72770135.050.00010.852本讲稿第七十页，共七十五页o值得一提的是，本节只涉及对自变量X进行变换，然后以变换后的数据用标准最小二乘（OLS）法求解

23、模型的参数估计与模型评价。当涉及到对反因变量y实施非线性变换如Z=ln(Y)时，因为OLS只保证变换后的Z，即ln(Y)的残差平方和最小，并不能保证原变量Y的残差平方和也最小,所以在此情况下，我们建议用统计软件来完成非线性拟合，例如,用SAS系统中的PROC NLIN 程序产生非线性模型参数的最小二乘估计。本讲稿第七十一页，共七十五页直线回归应用的注意事项o直线回归用于定量刻画因变量Y对自变量X在数值上的依存关系，其中因变量的定夺主要依专业要求而定，可以考虑把易于精确测量的变量作为X，另一个随机变量作Y，例如用身高估计体表面积。o 两个变量的选择一定要结合专业背景，不能把毫无关联的两种现象

24、勉强作回归分析。1根据分析目的选择变量及统计方法本讲稿第七十二页，共七十五页2进行回归分析前应绘制散点图（1）散点图可考察两变量是否有直线趋势；（2）可发现异常点（outlier）。散点图对异常点的识别与处理需要从专业知识和现有数据两方面来考虑，结果可能是现有回归模型的假设错误需要改变模型形式，也可能是抽样误差造成的一次偶然结果甚至过失误差。需要认真核对原始数据并检查其产生过程认定是过失误差，或者通过重复测定确定是抽样误差造成的偶然结果，才可以谨慎地剔除或采用其它估计方法。本讲稿第七十三页，共七十五页3资料的要求直线回归要求至少对于每个 X 相应的 Y 要服从正态分布，X可以是服从正态分布的随机变量也可以是能精确测量和严格控制的非随机变量；*对于双变量正态分布资料，根据研究目的可选择由 X 估计 Y 或者由 Y 估计 X，一般情况下两个回归方程不相同）。本讲稿第七十四页，共七十五页反应两变量关系密切程度或数量上影响大小的统计量应该是回归系数的绝对值，而不是假设检验的P值。P值越小只能说越有理由认为变量间的直线关系存在，而不能说关系越密切或越“显著”。另外，直线回归用于预测时，其适用范围一般不应超出样本中自变量的取值范围。4结果解释及正确应用本讲稿第七十五页，共七十五页

展开阅读全文