元回归及简单相关分析.ppt

上传人:wuy****n92 文档编号:54699890 上传时间:2022-10-29 格式:PPT 页数:39 大小:1.83MB
返回 下载 相关 举报
元回归及简单相关分析.ppt_第1页
第1页 / 共39页
元回归及简单相关分析.ppt_第2页
第2页 / 共39页
点击查看更多>>
资源描述

《元回归及简单相关分析.ppt》由会员分享,可在线阅读,更多相关《元回归及简单相关分析.ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第十章第十章 一元回归及简单相关分析一元回归及简单相关分析第十章第十章 一元回归及简单相关分析一元回归及简单相关分析上课提纲:上课提纲:一、回归和相关的基本概念一、回归和相关的基本概念二、一元线性回归二、一元线性回归三、一元非线性回归三、一元非线性回归四、相关四、相关重点:回归方程的拟合及其显著性检验重点:回归方程的拟合及其显著性检验难点:回归的方差分析难点:回归的方差分析 前面,我们所讨论的统计方法,只涉及一个前面,我们所讨论的统计方法,只涉及一个变量。例如,在不同品种的产量比较试验中,每变量。例如,在不同品种的产量比较试验中,每一品种一品种平均数反映产量的集中点平均数反映产量的集中点。标准

2、差反映了标准差反映了产量的离散程度产量的离散程度。如作物产量,通过计算平均数。如作物产量,通过计算平均数和标准差,就可知道这种作物在产量上的总体和和标准差,就可知道这种作物在产量上的总体和变异情况,进而根据变异程度进行变异情况,进而根据变异程度进行u-检验、检验、t-检检验、验、F-检验和检验和x2-检验,并可确定那个品种好,那检验,并可确定那个品种好,那个品种不好;可筛选出适宜的条件或措施,等等,个品种不好;可筛选出适宜的条件或措施,等等,而这些都只涉猎产量一个变量,而产量不仅与品而这些都只涉猎产量一个变量,而产量不仅与品种有关,还与施肥量种有关,还与施肥量 、播种密度、及灌水量、播种密度、

3、及灌水量等多种因素有关。因此在试验研究的过程中,经等多种因素有关。因此在试验研究的过程中,经常要研究两个或两个以上变量间的相关关系。事常要研究两个或两个以上变量间的相关关系。事物间或现象间的关系,这种物间或现象间的关系,这种研究事物间或现象间研究事物间或现象间关系的统计方法就属于回归和相关关系的统计方法就属于回归和相关。第十章第十章 一元回归及简单相关分析一元回归及简单相关分析一、回归与相关的基本概念一、回归与相关的基本概念 回回归归这这个个名名称称是是英英国国遗遗传传学学家家Frances Golton提提出出来来的的。他他研研究究了了人人的的身身高高、肘肘长长和和手手的的跨跨距距等等,发发

4、现现:身身材材高高的的父父母母所所生生子子女女的的身身材材也也高高,但但是是高高身身材材的的父父母母所所生生子子女女的的平平均均身身高高不不如如他他们们父父母母那那么么高高,但但子子女女的的身身高高是是依依靠靠父父母母的的身身高高,他他把把这这种种趋趋向向称称作作回回归归,即即回回归归到到全全体体人人口口的的平平均均身身高高,这这种种子子女女身身高高依依赖父母身高的关系就是回归关系赖父母身高的关系就是回归关系。回回归归关关系系是是一一种种函函数数关关系系,但但它它不不同同于于数数学学上上的的函函数数关关系系。数数学学上上的的函函数数关关系系是是一一种种确确定定性性的的关关系系,比比如如,圆圆的

5、的面面积积S=r2,你你抽抽取取多多少少个个总总体体,都都遵遵从从这这一一关关系系;而而回回归归关关系系是是一一种种非非确确定定性性的的关关系系,总总体体不不同同,函函数数关关系系就就发发生生变变化化。生生物物统统计计就就是是从从这这种种非非确确定定性性关关系系中中去去了了解解变变量量间间的的联联系系。表表述述这这种种变变量量间间的的联系有两个指标:回归和相关。联系有两个指标:回归和相关。对两个变量,一个变量用符号对两个变量,一个变量用符号x x表示,另一个表示,另一个变量用变量用y y表示,如果通过试验或调查获得两个变表示,如果通过试验或调查获得两个变量的成对观测值,可表示为量的成对观测值,

6、可表示为(x1,y1),(x2,y2 ),(xn,yn)。为了直观看出。为了直观看出x x和和y y变化关系变化关系可将每一对观测值在平面直角坐标系中表示成可将每一对观测值在平面直角坐标系中表示成一个点,作成散点图。一个点,作成散点图。图图10101 x1 x和和y y之间的关系之间的关系 从散点图可以看出:从散点图可以看出:两个变量间关两个变量间关系的性质和程度;系的性质和程度;两个变量间关系的类两个变量间关系的类型,是直线型还是曲线型;型,是直线型还是曲线型;是否有异常是否有异常观测值的干扰等。例如图观测值的干扰等。例如图10101 1是三幅两个是三幅两个变量的散点图,图变量的散点图,图a

7、 a和图和图b b都是直线型的,都是直线型的,但图但图a a的两个变量关系较图的两个变量关系较图b b密切,且是正密切,且是正向的,即向的,即x增加增加y心也增加,图心也增加,图b b是负向的,是负向的,图图c c的两个变量之间关系是曲线型的。由散的两个变量之间关系是曲线型的。由散点图表示两个变量之间的关系只是定性的点图表示两个变量之间的关系只是定性的研究,为了探讨它们之间的规律性,必须研究,为了探讨它们之间的规律性,必须根据观测值将期理论关系推导出来。根据观测值将期理论关系推导出来。研究两个变量的关系可采用回归与相关的分析统计研究两个变量的关系可采用回归与相关的分析统计方法。如果两个变量间关

8、系属于因果关系,一般用回归方法。如果两个变量间关系属于因果关系,一般用回归来研究。表示原因的变量称为自变量,用来研究。表示原因的变量称为自变量,用x x表示。自变表示。自变量是固定的量是固定的(试验时预先确定的试验时预先确定的),没有随机误差。表示,没有随机误差。表示结果的变量称为依变量,用结果的变量称为依变量,用y y表示表示 并有随机误差。例并有随机误差。例如作物施肥和产量之间的关系,前者是表示原因的变量,如作物施肥和产量之间的关系,前者是表示原因的变量,为事先确定的,是自变量,后者是表示结果的变量,且为事先确定的,是自变量,后者是表示结果的变量,且具有随机误差,为依变量,作物产量是随施肥

9、量的变化具有随机误差,为依变量,作物产量是随施肥量的变化而变化的。(一个自变量而变化的。(一个自变量x x可以有许多可以有许多y y值和它对应)值和它对应)回归分析的目的是揭示呈因果关系的变量之间的联回归分析的目的是揭示呈因果关系的变量之间的联系形式,建立回归方程,利用建立回归方程由自变量来系形式,建立回归方程,利用建立回归方程由自变量来预测和控制依变量。预测和控制依变量。如果两变量是平行关系,只能用相关来进行如果两变量是平行关系,只能用相关来进行研究。在相关分析中,无自变量和依变量之分,研究。在相关分析中,无自变量和依变量之分,且都具有随机误差。(两个变量取值不是一对一且都具有随机误差。(两

10、个变量取值不是一对一的)相关分析只能研究两个变量之间相关程度和的)相关分析只能研究两个变量之间相关程度和性质,不能用一个变量的变化去预测另一个变量性质,不能用一个变量的变化去预测另一个变量的变化,这是回归与相关区别的关键所在。的变化,这是回归与相关区别的关键所在。显显然然,相相关关关关系系中中两两个个随随机机变变量量没没有有谁谁依依赖赖谁谁的的关关系系,而而回回归归关关系系中中随随机机变变量量是是依依赖赖于于变变量量的的。对对于于回回归归分分析析而而言言,我我们们不不但但要要弄弄清清楚楚谁谁依依赖谁,而且要搞明白依赖程度是否显著。赖谁,而且要搞明白依赖程度是否显著。相关关系(相关关系(corr

11、elation)两个随机变量(两个随机变量(X和和Y)的相互对应关系(的相互对应关系(X Y)。)。回归关系(回归关系(regression)一个变量(一个变量(X)和一个)和一个 随机变量(随机变量(Y)的对应关系()的对应关系(X Y)。)。第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元回归分析的意义、一元回归分析的意义二、一元线性回归二、一元线性回归1、较少的工作量就可掌握事物或现象的趋势或规律;、较少的工作量就可掌握事物或现象的趋势或规律;假如土壤中假如土壤中NaCl含量为含量为g kg-1,叶干重是多少?,叶干重是多少?因为:因为:yxx所以:所以:y=11.161

12、3.7+81.786=123.1 mg dm-2 2、预测事物或现象的具体变化;、预测事物或现象的具体变化;对于重复对于重复1:80、90、95、115、130、115、135样本方差:样本方差:s2=431 因为:因为:yx 误差均方:误差均方:MSe。误差均方是样本方差的。误差均方是样本方差的。因此,只有在引进自变量以后所得到的实验误差,因此,只有在引进自变量以后所得到的实验误差,才是真正的实验误差。才是真正的实验误差。3、减小实验误差。、减小实验误差。第十章第十章 一元回归及简单相关分析一元回归及简单相关分析二、一元线性回归二、一元线性回归、一元直线回归模型的建立、一元直线回归模型的建立

13、:1、内涵、内涵 为了描述两变量间的数量关系,当自变量为了描述两变量间的数量关系,当自变量 时,时,因变量因变量Y的平均数的平均数 与之相对应,那么,与之相对应,那么,称为称为Y的的条件平均数(条件平均数(conditional mean)。在实验无限重复后,可以得到各在实验无限重复后,可以得到各xi上上Y的条件平均的条件平均数数 ,这些平均数构成一条直线:,这些平均数构成一条直线:式中:式中:为直线的截距为直线的截距(intercept),为斜率为斜率(slope)。对于一对给定的对于一对给定的X和和Y与直线与直线 的离差(随机误的离差(随机误差)差),它独立于,它独立于X且服从于同一正态分

14、布且服从于同一正态分布 。如如上上回回归归模模型型只只包包含含一一个个自自变变量量X且且具具有有正正态态性性,所以称为所以称为一元正态线性回归模型一元正态线性回归模型。一一般般情情况况下下,得得不不到到真真正正的的和和,只只能能求求出出它它们们的估计值的估计值a和和b,从而得到一条估计的直线:,从而得到一条估计的直线:回归方程回归方程估计值估计值回归系数回归系数画出的线画出的线叫回归线叫回归线第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的建立、一元直线回归模型的建立:2、模型建立、模型建立二、一元线性回归二、一元线性回归每一次每一次a a和和b b取值不同,每一

15、个取值不同,每一个数据点的数据点的 不同。不同。对于所有点而言,每一次对于所有点而言,每一次a a和和b b取值不同,每一个数据点的离取值不同,每一个数据点的离差差 不同。不同。回归分析中,要使每一个离差回归分析中,要使每一个离差 都很小,必须选取适都很小,必须选取适当的常数当的常数a和和b,使得:,使得:达到最小,进而保证每个离差的绝对值都很小。这种达到最小,进而保证每个离差的绝对值都很小。这种根据离差的根据离差的平方和为最小的条件来选择常数的方法称为最小二乘法平方和为最小的条件来选择常数的方法称为最小二乘法(method of least square)。)。第十章第十章 一元回归及简单相

16、关分析一元回归及简单相关分析 目的明确以后,把目的明确以后,把L看成为自变量看成为自变量a 和和b的一个二元函数,那么的一个二元函数,那么问题就可归结为求函数问题就可归结为求函数L=L(a,b)在那些点处取得的最小值,这样在那些点处取得的最小值,这样就可就可通过数学方法可求出使通过数学方法可求出使L达到最小时的常数达到最小时的常数a和和b。二、一元线性回归二、一元线性回归、一元直线回归模型的建立、一元直线回归模型的建立:2、模型建立、模型建立得正规方程(得正规方程(normal equation):):解正规方程,得到解正规方程,得到和和的的最小二乘估计最小二乘估计a和和b:校正交叉乘积和校正

17、交叉乘积和SXYX的校正平方和的校正平方和SXX计算估计值计算估计值a和和b时的程序:时的程序:X和和Y的的校正交叉乘积和:校正交叉乘积和:X的的校正平方和:校正平方和:Y的的校正平方和:校正平方和:直线回归方程的两个直线回归方程的两个性质:性质:(1);(2)回归直线必须通回归直线必须通过中心点过中心点 。(2)计算校正项:)计算校正项:(3)计算估计值)计算估计值a和和b:(1)计算观测平均值:)计算观测平均值:二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的建立、一元直线回归模型的建立:3、例题、例题例题例题10-1 10-1

18、 土壤不同含盐量时小麦收获的叶干重如下表:土壤不同含盐量时小麦收获的叶干重如下表:试建立土壤含盐量与小麦叶干重的直线回归方程。试建立土壤含盐量与小麦叶干重的直线回归方程。解:解:分别求出分别求出SXY、SXX、SYY 回回归归系系数数,表表示示当当自自变变量量每每变变动动一一个个单单位位,因因变变量量变变动动个个单单位。位。二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的检验、一元直线回归模型的检验:(一一)方差分析方差分析1、无重复时的方差分析、无重复时的方差分析 即:总平方和即:总平方和=剩余平方和剩余平方和(误差平方和误差平方

19、和)+回归平方和回归平方和记为:记为:,SYY具具n-1自由度;自由度;其中:其中:,SSe具具n-2自由度;自由度;,SSR具具1自由度。自由度。均方分别为:均方分别为:若若FF1,(n-2),,则拒绝,则拒绝H0:=0。FF=16.26,回归极显著。,回归极显著。二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析2、有重复时的方差分析、有重复时的方差分析、一元直线回归模型的检验、一元直线回归模型的检验:(一一)方差分析方差分析 如如果果对对于于同同一一个个自自变变量量,因因变变量量重重复复观观测测两两次次以以上上,此此时时剩剩余余平平方方和和分分解解

20、为为纯纯实实验验误误差差平平方方和和(pure experimental error sum of squares)和和失失拟拟平平方方和和(lack of fit sum of squares)(模模型选择不当造成的型选择不当造成的),总校正平方和做如下分解:),总校正平方和做如下分解:即:即:总平方和总平方和=回归平方和失拟平方和纯实验误差平方和回归平方和失拟平方和纯实验误差平方和 记为:记为:;SYY具具mn-1自由度;自由度;SSR具具1自由度;自由度;SSpe具具mn-n自由度;自由度;SSLOF具具n-2自由度。自由度。均方分别为:均方分别为:第一步:检验选择模型的适宜性第一步:检

21、验选择模型的适宜性 若若F F(n-2),(mn-n),,则模型选择不当,则模型选择不当。当差异不显著(即模型选择正确)时,当差异不显著(即模型选择正确)时,进行下一步检验。进行下一步检验。第二步:检验回归关系的显著性第二步:检验回归关系的显著性 此此时时,失失拟拟平平方方和和基基本本上上是是由由实实验验误误差差造造成成的的。将将失失拟拟平平方方和和和和纯纯误误差差平平方方和和合合并并,相相应应自自由由度度合合并并(df=mn-2),以以合合并并后后的的均均方方对对回回归归均均方方进进行行显显著著性性检验。检验。若若FF1,(mn-2),,则拒绝则拒绝H0:=0。二、一元线性回归二、一元线性回

22、归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的检验、一元直线回归模型的检验:(一一)方差分析方差分析2、有重复时的方差分析、有重复时的方差分析 例题例题10-7 土壤不同含盐量时有重复实验中小麦收获的土壤不同含盐量时有重复实验中小麦收获的叶干重如下表:叶干重如下表:试对该土壤含试对该土壤含盐量与小麦叶盐量与小麦叶干重的直干重的直线回归方程的显著性进行检验。线回归方程的显著性进行检验。解:得到回归方程解:得到回归方程 差异不显著,说明模型选择正确。差异不显著,说明模型选择正确。注意:对于小样本(注意:对于小样本(n 30),),F1.5肯定不显著;肯定不显著;对

23、于大样本(对于大样本(n 30),),F1.0肯定不显著。肯定不显著。F F1,12,0.01=9.33,回归关系极显,回归关系极显著。著。二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的检验、一元直线回归模型的检验:(二二)回归系数回归系数t-检验检验一元线性回归模型的实测值可表示为一元线性回归模型的实测值可表示为 ,因无法获得,因无法获得和和,故实测值表述为,故实测值表述为 。二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的检验、一元直线回归模型的检验:(3)点估计与

24、区间估计点估计与区间估计1、对、对和和的估计的估计 二、一元线性回归二、一元线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析、一元直线回归模型的检验、一元直线回归模型的检验:(3)点估计与区间估计点估计与区间估计2、对回归线、对回归线 和对和对 的估计的估计 总体平均数总体平均数观测值个体观测值个体样本样本例例题题:在在例例题题10-1中中,请请估估计计土土壤壤含含盐盐量量为为1.6 gkg-1时时小小麦麦叶叶干干重重为为多多少少mgdm-2(取取置置信信概概率率)?张张老老师师2006年年在在土土壤壤含含盐盐量量为为1.6 gkg-1的的试试验验地地中中进进行行小小麦麦实实

25、验验,叶叶干干重为多少重为多少mgdm-2(取置信概率)?(取置信概率)?解解:分分析析第第一一问问为为求求总总体体平平均均值值的的置置信信区区间间;第第二二问为求单个观测值问为求单个观测值样本的置信区间。样本的置信区间。三、一元非线性回归三、一元非线性回归第十章第十章 一元回归及简单相关分析一元回归及简单相关分析 多项式回归多项式回归 两两变变量量间间的的数数据据散散点点图图无无法法确确定定函函数数关关系系时时,用用多项式回归。一般形式为:多项式回归。一般形式为:例题例题10-13 假设有一组数据,如下表,假设有一组数据,如下表,试建立回归方程并做显著性检验。试建立回归方程并做显著性检验。解

26、:解:在在Excel中,分别拟合多项式回归方程,中,分别拟合多项式回归方程,并做显著性检验。结果如下图。并做显著性检验。结果如下图。1、相关系数概念及其计算、相关系数概念及其计算 相相关关系系数数(correlation coefficient)是是指指由由于于回回归归因因素素所所引引起起的的变变差差与与总总变变差差之之比比的的平平方方根根,它它是是衡衡量量线线性性回回归归好好坏坏的的一一个个标标志志。由由回回归归因因素素所所引引起起的的变变差差在在总总变变差差中中的的比比率率越越大大,回回归归的的成成分分就越大,这两个变量间的相关就越密切。就越大,这两个变量间的相关就越密切。样本相关系数为:

27、样本相关系数为:相关系数的性质相关系数的性质用散点图说明用散点图说明第十章第十章 一元回归及简单相关分析一元回归及简单相关分析四、相关四、相关2、相关系数的检验、相关系数的检验 涉及一个概念涉及一个概念总体相关系数总体相关系数 ,即总体相关系数等于两变量的协方差除以两变量标准即总体相关系数等于两变量的协方差除以两变量标准差的几何平均数。差的几何平均数。事实上,总体相关系数事实上,总体相关系数很难计算,只能估计。很难计算,只能估计。(1)r不不经经变变换换:当当=0时时(待待检检验验数数据据分分布布符符合合正正态分布),可用态分布),可用t=b/sb来检验。来检验。检验统计量为:检验统计量为:t

28、 t0.010.01 例例题题10-14 在在研研究究水水稻稻籽籽粒粒蛋蛋白白质质含含量量()时时,采采用用两两种种不不同同的的测测定定方方法法:凯凯氏氏定定氮氮法法(KP法法)和和染染料料结结合合法法(DBC法法),结结果果如如下下表表,问问两两种种测测定定方方法法对对结果是否有显著影响?结果是否有显著影响?解:解:H0:=0 说明两种方法测定结果是一致的。说明两种方法测定结果是一致的。3、相关系数与回归系数的关系、相关系数与回归系数的关系 通常以通常以X为自变量、为自变量、Y为因变量,为因变量,这时的回归系数这时的回归系数 反过来,以反过来,以Y为自变量、为自变量、X为因为因变量,这时的回

29、归系数变量,这时的回归系数 FinishedFinished对比对比r 和和 b 两个变量在相关系数计算中的地位是平等的,没有自两个变量在相关系数计算中的地位是平等的,没有自变量和依变量之分,这是回归和相关的区别。变量和依变量之分,这是回归和相关的区别。R 2 的含义是变量引起变异的回归平方和占变异总平方和的比率。的含义是变量引起变异的回归平方和占变异总平方和的比率。取值范围是取值范围是0到到1 例题中 r=0.953 R 2=0.9082 表明表明y的变的变异中有异中有90.82%可用可用y与与x二者之间的线性关系二者之间的线性关系来解释。来解释。名词解释名词解释连续型数据连续型数据 离散型

30、离散型 数据数据 变异系数变异系数 随机抽样随机抽样 标准差标准差 自由度自由度 标准误差标准误差 (标准误)(标准误)零假设零假设 备择假设备择假设 显著性水平显著性水平 统计假设检验统计假设检验 误差均方误差均方 总体总体 中位数中位数 相关系数相关系数 回归系数回归系数 简答题简答题 1、研究频数分布的意义、研究频数分布的意义?22、为什么要计算数据的标准差?标准差的含义是什么?为什么要计算数据的标准差?标准差的含义是什么?3、两个常用的标难差公式是什么?、两个常用的标难差公式是什么?4、变异系数是怎样计算的?为什么计算变异系数?、变异系数是怎样计算的?为什么计算变异系数?5、简述、简述t分布和正态分布有什么不同?分布和正态分布有什么不同?6、简述小概率原理。、简述小概率原理。7、t检验的类型和前提条件检验的类型和前提条件?8、经检验、经检验,因而接受,因而接受H。,对于。,对于“接受零假设接受零假设”这一结论的严格这一结论的严格表达是什么?为什么?表达是什么?为什么?9、成组数据、成组数据t检验的条件是什么检验的条件是什么?写出检验统计量。写出检验统计量。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 初中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁