《第四章相关与回归.ppt》由会员分享,可在线阅读,更多相关《第四章相关与回归.ppt(41页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第四章第四章 相关与回归相关与回归Chapter 4:Regressionand Correlation060120180施氮施氮量量(kg N/ha)2468植物的生长量植物的生长量 在回归模型中,在回归模型中,X是试验时预先确定的,没有误差或是试验时预先确定的,没有误差或误差很小,而误差很小,而Y不仅随着不仅随着X的变化而变化,并且有随机误的变化而变化,并且有随机误差,差,X称为自变量,称为自变量,Y称为依变量。在回归模型中除有自称为依变量。在回归模型中除有自变量和依变量的區别外,尚有预测的特征。回归模型资料变量和依变量的區别外,尚有预测的特征。回归模型资料的统计方法叫回归分析,确定由的统
2、计方法叫回归分析,确定由X来预测或控制来预测或控制Y的回归的回归方程,并确定当给方程,并确定当给X某一个值时某一个值时Y将会在什么范围内变化。将会在什么范围内变化。从统计学上讲,从统计学上讲,X和和Y变数的关系有两种理论模型:变数的关系有两种理论模型:第一种叫回归模型;第二种叫相关模型。第一种叫回归模型;第二种叫相关模型。在相关模型中,在相关模型中,X和和Y变数是平行变化关系,均具有随变数是平行变化关系,均具有随机误差,所表示的只是两个变数的偕同变异,没有自变数机误差,所表示的只是两个变数的偕同变异,没有自变数和依变数之分,也不具有预测的性质。相关模型资料的统和依变数之分,也不具有预测的性质。
3、相关模型资料的统计方法叫相关分析,其目的是要测定两个变数在数量关系计方法叫相关分析,其目的是要测定两个变数在数量关系上的密切程度和性质。上的密切程度和性质。4.1 直线回归方程直线回归方程回归系数回归截距 确定直线回归方程的方法有最小二乘法、高斯牛顿确定直线回归方程的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。点给大家介绍最小二乘法。分别对上式的a和b求偏导:解方程组得:a称为截距;b成为斜率;Q称为离回归平方和或称为剩余平方和;U称为回归平方和;Sy/x称为回归估计标准误。因方程使用了因方程
4、使用了a,b两个统两个统计数,故自由度为计数,故自由度为n2。例 测定水稻播种至齐穗的天数和播种至齐穗的总积温的数据如下。请确定X与Y的变化关系。表 播种至齐穗的天数X和播种至齐穗的总积温Y的关系Xi706755525152516164Yi1616.3 1610.9 1440.0 1440.7 1423.3 1471.3 1421.8 1547.1 1533.0解:以X为横坐标,Y为纵坐标绘制散点图。从散点图可以看出Y与X有回归关系,Y随着X变大而上升,可以选用一元线性回归方程拟合Y与X的回归关系。因此,该例数据的回归直线方程为:Old Y Fitted Y Residuals STD Res
5、iduals1421.801429.89-8.09 -0.281423.301429.89-6.59 -0.341440.701439.970.73 0.031471.301439.9731.33 1.331440.001470.23-30.23 -1.281547.101520.6626.44 1.111533.001561.01-28.01 -1.191610.901591.2619.64 0.831616.301621.52-5.22 -0.22表 残差值残差的方差及标准差为:用Se对残差进行标准,得到标准化残差,结果见上表。计算Y总体平均数的95%置信区间,计算公式如下所示,其结果包括
6、总体平均数在内。UCL:upper confidence limitLCL:lower confidence limit计算计算y值的值的95%置信区间的计算公式:置信区间的计算公式:X Y LCL95 UCL9551.001421.80 1408.84 1450.9351.001423.30 1408.84 1450.9352.001440.70 1420.37 1459.5852.001471.30 1420.37 1459.5855.001440.00 1454.02 1486.4460.001547.10 1505.16 1536.1664.001533.00 1541.40 1580
7、.6167.001610.90 1567.03 1615.4970.001616.30 1592.01 1651.03表 95%置信区间图 Y的95%置信区间包括总体平均数在内95%可靠度的置信区间 一般来讲,一般来讲,y关于关于x的回归方程的回归方程y=f(x)是未知的,由样本来拟合是是未知的,由样本来拟合是一种探索的过程,或者说是一个一种探索的过程,或者说是一个选择合适的函数逼近的过程。选择合适的函数逼近的过程。直线回归的显著测验:直线回归的显著测验:b的显著性测验:的显著性测验:b的的(1-)*100%的置信区间为:的置信区间为:a的显著性测验:的显著性测验:a的的(1-)*100%的置
8、信区间为:的置信区间为:回归关系的作用:回归关系的作用:1、预测、预测在在x=x0处,用处,用y=a+bx进行预测。预测包括平均值的预进行预测。预测包括平均值的预测和个别值的预测。测和个别值的预测。平均值预测个别值预测2、控制、控制 控制问题是预测的反问题。若要求控制问题是预测的反问题。若要求y的个的个别值在别值在y1,y2内的可靠性为(内的可靠性为(1-)100%时,时,应该把应该把x值控制在什末范围内?值控制在什末范围内?在在生生物物学学研研究究领领域域中中,许许多多变变量量间间的的关关系系呈呈非非线线性性关关系系(curvilinear relations)。非非线线性性模模型型的的形形
9、式式是是多多种种多多样样的的,这这里里只只讨讨论论在在农农学学和和生生物物学学研研究究中中常常遇遇到到的的非非线线性性模型。模型。如:昆虫种群的增长过程,病害的发展过程等等。如:昆虫种群的增长过程,病害的发展过程等等。对这类模型参数据的求解有两种方法:一是将非线对这类模型参数据的求解有两种方法:一是将非线性模型线性化,然后按直线模型参数的求解过程确定其性模型线性化,然后按直线模型参数的求解过程确定其参数,并进行检验;二是采用参数,并进行检验;二是采用Gauss-Newton法、法、Marquart法、法、Newton法、法、Gradient法、法、DUD法等进行法等进行参数的求解。下面以实例详
10、细说明计算过程。参数的求解。下面以实例详细说明计算过程。4.2 非线性回归方程非线性回归方程请参见课本第请参见课本第170页。页。非非线性回归方程参数的求解过程:线性回归方程参数的求解过程:(1)整理数据)整理数据(2)画散点图)画散点图(3)选方程)选方程(4)线性化)线性化(5)求解参数)求解参数(6)参数带回原方程)参数带回原方程例例1 美国纽约美国纽约1980年观察到马铃薯晚疫病年观察到马铃薯晚疫病(Phytophthora infestans)在四个马铃薯品在四个马铃薯品种(种(Katahdin,Kennebec,Monona,Sebago)上的严重度,结果见下表,请用上的严重度,结
11、果见下表,请用 Gompertz,Monomolecular和和Logistic模型拟合数据。模型拟合数据。接种天数接种天数 重复重复 严重度严重度 Katahdin Kennebec Monona Sebago1110.00.00.00.020.00.00.00.030.00.00.00.040.00.00.00.01412.50.911.80.7211.80.87.81.732.31.72.81.043.91.08.01.4 。37198.392.5100.0 75.5298.389.3100.0 79.5398.087.5100.0 83.0498.388.8100.0 78.0表表 四
12、个马铃薯品种上晚疫病发生程度数据四个马铃薯品种上晚疫病发生程度数据马铃薯上晚疫病发生过程的三点图马铃薯上晚疫病发生过程的三点图天病害严重度根据散点图趋势,选择较适合的曲线模型:根据散点图趋势,选择较适合的曲线模型:单单分子模型:分子模型:Gompertz模型:模型:Logistic模型:模型:单单分子模型:分子模型:ln 1/(1-y)=-lnA+BtGompertz模型:模型:ln 1/ln(1/y)=-lnA+BtLogistic模型:模型:ln y/(1-y)=A+Bt非非线性模型的线性化形式:线性模型的线性化形式:参数参数 参数估计参数估计 T T 概率值概率值INTERCEPT-6.
13、7654 -24.36 0.0001INTERCEPT-6.7654 -24.36 0.0001DAY 0.2879 27.07 0.0001DAY 0.2879 27.07 0.0001Logistic线性模型的参数估计:线性模型的参数估计:参数参数 参数估计参数估计 T T 概率值概率值INTERCEPT-4.3666 -20.40 0.0001INTERCEPT-4.3666 -20.40 0.0001Day 0.2139 26.10 0.0001Day 0.2139 26.10 0.0001Gompertz线性模型的参数估计:线性模型的参数估计:参数参数 参数估计参数估计 T T 概率
14、值概率值INTERCEPT-2.1898 -8.64 0.0001INTERCEPT-2.1898 -8.64 0.0001DAY 0.1458 14.23 0.0001DAY 0.1458 14.23 0.0001 Monomolecular线性模型的参数估计:线性模型的参数估计:Monomolecular:M=-2.1898+0.1458 DAY Gompertz:G=-4.3667+0.2140 DAY Logistic:L=-6.7655+0.2880 DAY 三三个模型的线性化形式:个模型的线性化形式:三三模型的非线性化形式:模型的非线性化形式:Monomolecular:Gompe
15、rtz:Logistic:例例2 酵母种群的增长资料如下表,试拟合生长模型。酵母种群的增长资料如下表,试拟合生长模型。表表 酵母种群增长资料酵母种群增长资料时刻时刻X 酵母数酵母数Y时刻时刻X 酵母数酵母数Y09.610513.3118.311559.7229.012594.8347.213629.4471.114640.85119.115651.16174.616655.97257.317659.68350.718661.89441.0 制作散点图,选择适合的制作散点图,选择适合的曲线方程曲线方程,这里以这里以Logistic方程方程为例,说明非线性方程参数的为例,说明非线性方程参数的求解过
16、程。求解过程。Dmlog;clear;output;clear;Options font=sasfont 8;DATA NEW;INPUT x y;Cards;0 9.6 1 18.3。PROC NLIN METHOD=DUD BEST=2;PARMS K=661 TO 665 BY 2 A=3 TO 5 B=-0.6 TO -0.4 BY 0.1;MODEL y=K/(1+EXP(A+B*x);RUN;采用DUD法求解Logistic方程的参数:表表 Logistic参数估计表参数估计表参数参数参数估计参数估计标准误标准误95%下限下限95%上限上限K663.01.7027659.4666.
17、6A4.2708 0.04094.18414.3575B-0.54700.00558-0.5588-0.5352Logistic方程为:方程为:4.3 相关分析相关分析相关系数:相关系数:用用r来表示,其取值范围为来表示,其取值范围为1到到1,表示两,表示两个变数间相关的密切程度和性质。个变数间相关的密切程度和性质。r的绝对值愈大表示两的绝对值愈大表示两个变数愈密切;当个变数愈密切;当r取负值时表示两个变量间呈负相关;取负值时表示两个变量间呈负相关;当当r取正值时表示两个变量间呈正相关。取正值时表示两个变量间呈正相关。决定系数:决定系数:是由是由x不同而引起的不同而引起的y变数平方和变数平方和
18、U占占y变数总平变数总平方和方和SSy的比率,即决定系数是相关系数的平方值。的比率,即决定系数是相关系数的平方值。决定系数和相关系数的区别主要有:决定系数和相关系数的区别主要有:1、除掉、除掉|r|=1 和和|r|=0两种情况外,决定系数总两种情况外,决定系数总小于相关系数;小于相关系数;2、r的取值范围为的取值范围为1到到1,而决定系数的取值,而决定系数的取值范围为范围为0到到1;3、r可以用来表示相关的程度和性质,而决定可以用来表示相关的程度和性质,而决定系数只用来表示相关的程度,不表示相关的性系数只用来表示相关的程度,不表示相关的性质。质。直线相关系数的假设测验:直线相关系数的假设测验:
19、H0:0;HA:0。其中,其中,样本是从总体样本是从总体0中抽中抽样得到。样得到。直线相关系数的标准误为:直线相关系数的标准误为:例例 测定水稻播种至齐穗的天数和播种至齐穗积温的数据测定水稻播种至齐穗的天数和播种至齐穗积温的数据如下表。请确定如下表。请确定X与与Y的变化关系。的变化关系。表表 播种至齐穗的天数播种至齐穗的天数X和播种至齐穗的总积温和播种至齐穗的总积温Y的关系的关系Xi706755525152516164Yi1616.3 1610.9 1440.0 1440.7 1423.3 1471.3 1421.8 1547.1 1533.0Data new;Input x y;Cards;
20、70 1616.3 67 1610.9 55 1440.052 1440.7 51 1423.3 52 1471.351 1421.8 61 1547.1 64 1533.0;Proc corr;/用于计算相关系数的过程用于计算相关系数的过程Var x y;Run;解:计算相关系数的SAS程序为:例例 一些害虫盛发期的迟早和春季温度高低有关。测定某一些害虫盛发期的迟早和春季温度高低有关。测定某地地19561964年间年间3月下旬至月下旬至4月中旬旬平均气温累积值和月中旬旬平均气温累积值和一代三化螟蛾盛发期得关系见下表,请计算相关系数。一代三化螟蛾盛发期得关系见下表,请计算相关系数。表表 积温和
21、一代三化螟蛾盛发期的关系积温和一代三化螟蛾盛发期的关系X(积温)积温)Y(盛发期)盛发期)35.51234.11631.7940.3236.8740.2331.71339.2944.2-1Data new;Input x y;Cards;70 1616.3 67 1610.9 55 1440.052 1440.7 51 1423.3 52 1471.351 1421.8 61 1547.1 64 1533.0;Proc corr;Var x y;Run;解:计算相关系数得SAS程序为:说明说明3月下旬至月下旬至4月中旬积温和一代三化螟蛾盛发期间存在月中旬积温和一代三化螟蛾盛发期间存在真实的直线相关关系。真实的直线相关关系。直线相关系数的直线相关系数的t检验:检验:查r表,当自由度为表,当自由度为7时,显著水平分别为时,显著水平分别为0.05和和0.01时,对应的时,对应的r值分别为值分别为0.666和和0.798。|r|=0.83710.798 因此,两个变量在因此,两个变量在0.01 水平上显著,即认为水平上显著,即认为两个变量之间存在显著的直线相关关系。两个变量之间存在显著的直线相关关系。直线相关系数的直接检验:直线相关系数的直接检验: