《Excel回归结果的解读-.pdf》由会员分享,可在线阅读,更多相关《Excel回归结果的解读-.pdf(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、1 Excel 回归结果的解读利用 Excel 的数据分析进行回归,可以得到一系列的统计参量。下面以连续10 年积雪深度和灌溉面积序列(图 1)为例给予详细的说明。图 1 连续 10 年的最大积雪深度与灌溉面积(19711980)回归结果摘要(Summary Output)如下(图 2):图 2 利用数据分析工具得到的回归结果2 第一部分:回归统计表这一部分给出了相关系数、测定系数、校正测定系数、标准误差和样本数目如下(表 1):表 1 回归统计表逐行说明如下:Multiple 对应的数据是相关系数(correlation coefficient),即 R=0.989416。R Square对
2、应的数值为测定系数(determination coefficient),或称拟合优度(goodness of fit),它是相关系数的平方,即有R2=0.9894162=0.978944。Adjusted 对应的是校正测定系数(adjusted determination coefficient),计算公式为1)1)(1(12mnRnRa式中 n 为样本数,m 为变量数,R2为测定系数。对于本例,n=10,m=1,R2=0.978944,代入上式得976312.01110)978944.01)(110(1aR标准误差(standard error)对应的即所谓标准误差,计算公式为SSe11m
3、ns这里 SSe 为剩余平方和,可以从下面的方差分析表中读出,即有SSe=16.10676,代入上式可得418924.110676.16*11101s最后一行的观测值对应的是样本数目,即有n=10。第二部分,方差分析表方差分析部分包括自由度、误差平方和、均方差、F 值、P 值等(表 2)。表 2 方差分析表(ANOVA)逐列、分行说明如下:第一列 df 对应的是自由度(degree of freedom),第一行是回归自由度dfr,等于变量数目,即 dfr=m;第二行为残差自由度dfe,等于样本数目减去变量数目再减1,即有 dfe=n-m-1;第三行为总自由度dft,等于样本数目减1,即有 d
4、ft=n-1。对于本例,m=1,n=10,因此,3 dfr=1,dfe=n-m-1=8,dft=n-1=9。第二列 SS 对应的是误差平方和,或称变差。第一行为回归平方和或称回归变差SSr,即有8542.748)?(SSr12niiiyy它表征的是因变量的预测值对其平均值的总偏差。第二行为剩余平方和(也称残差平方和)或称剩余变差SSe,即有10676.16)?(SSe12niiiyy它表征的是因变量对其预测值的总偏差,这个数值越大,意味着拟合的效果越差。上述的y的标准误差即由SSe给出。第三行为总平方和或称总变差SSt,即有961.764)(SSr12niiiyy它表示的是因变量对其平均值的总
5、偏差。容易验证748.8542+16.10676=764.961,即有SStSSeSSr而测定系数就是回归平方和在总平方和中所占的比重,即有978944.0961.7648542.748SStSSr2R显然这个数值越大,拟合的效果也就越好。第四列 MS 对应的是均方差,它是误差平方和除以相应的自由度得到的商。第一行为回归均方差MSr,即有8542.74818542.748dfrSSrMSr第二行为剩余均方差MSe,即有013345.2810676.16dfeSSeMSe显然这个数值越小,拟合的效果也就越好。第四列对应的是F 值,用于线性关系的判定。对于一元线性回归,F 值的计算公式为22221
6、dfe)1(11RRRmnRF式中 R2=0.978944,dfe=10-1-1=8,因此9453.371978944.01978944.0*8F第五列 Significance F 对应的是在显著性水平下的F临界值,其实等于P 值,即弃真概率。所谓“弃真概率”即模型为假的概率,显然1-P 便是模型为真的概率。可见,P 值越小越好。对于本例,P=0.00000005420.0001,故置信度达到99.99%以上。第三部分,回归参数表4 回归参数表包括回归模型的截距、斜率及其有关的检验参数(表 3)。表 3 回归参数表第 一 列Coefficients对 应 的 模 型 的 回 归 系 数,包
7、括 截 距a=2.356437929和 斜 率b=1.812921065,由此可以建立回归模型iixy8129.13564.2?或iiixy8129.13564.2第二列为回归系数的标准误差(用as?或bs?表示),误差值越小,表明参数的精确度越高。这个参数较少使用,只是在一些特别的场合出现。例如L.Benguigui 等人在 When and where is a city fractal?一文中将斜率对应的标准误差值作为分形演化的标准,建议采用0.04 作为分维判定的统计指标(参见EPB2000)。不常使用标准误差的原因在于:其统计信息已经包含在后述的t 检验中。第三列 t Stat 对应
8、的是统计量t 值,用于对模型参数的检验,需要查表才能决定。t 值是回归系数与其标准误差的比值,即有aasat?,bbsbt?根据 表 3 中的数据容易算出:289167.1827876.1356438.2at,28588.19094002.0812921.1bt对于一元线性回归,t 值可用相关系数或测定系数计算,公式如下112mnRRt将 R=0.989416、n=10、m=1 代入上式得到28588.191110989416.01989416.02t对于一元线性回归,F 值与 t 值都与相关系数R 等价,因此,相关系数检验就已包含了这部分信息。但是,对于多元线性回归,t 检验就不可缺省了。第
9、四列 P value 对应的是参数的P值(双侧)。当 P0.05 时,可以认为模型在=0.05 的水平上显著,或者置信度达到95%;当 P0.01 时,可以认为模型在=0.01 的水平上显著,或者置信度达到99%;当 P0.001 时,可以认为模型在=0.001 的水平上显著,或者置信度5 达到 99.9%。对于本例,P=0.00000005420.0001,故可认为在=0.0001 的水平上显著,或者置信度达到99.99%。P 值检验与t 值检验是等价的,但P 值不用查表,显然要方便得多。最后几列给出的回归系数以95%为置信区间的上限和下限。可以看出,在=0.05 的显著水平上,截距的变化上
10、限和下限为-1.85865 和 6.57153,即有57153.685865.1a斜率的变化极限则为1.59615 和 2.02969,即有02969.259615.1b第四部分,残差输出结果这一部分为选择输出内容,如果在“回归”分析选项框中没有选中有关内容,则输出结果不会给出这部分结果。残差输出中包括观测值序号(第一列,用i 表示),因变量的预测值(第二列,用iy?表示),残差(residuals,第三列,用ei表示)以及标准残差(表 4)。表 4 残差输出结果预测值是用回归模型iixy8129.13564.2?计算的结果,式中xi即原始数据的中的自变量。从图 1 可见,x1=15.2,代入
11、上式,得118129.13564.2?xy91284.292.15*8129.13564.2其余依此类推。残差 ei的计算公式为iiiyye?从图 1 可见,y1=28.6,代入上式,得到31284.191284.296.28?111yye其余依此类推。标准残差即残差的数据标准化结果,借助均值命令average 和标准差命令stdev 容易验证,残差的算术平均值为0,标准差为1.337774。利用求平均值命令standardize(残差的单元格范围,均值,标准差)立即算出 表 4中的结果。当然,也可以利用数据标准化公式6)var(*iiizzzziizz逐一计算。将残差平方再求和,便得到残差平
12、方和即剩余平方和,即有10676.16)?(1212niiiniiyyeSSe利用 Excel 的求平方和命令sumsq容易验证上述结果。以最大积雪深度xi为自变量,以残差ei为因变量,作散点图,可得残差图(图 3)。残差点列的分布越是没有趋势(没有规则,即越是随机),回归的结果就越是可靠。用最大积雪深度xi为自变量,用灌溉面积yi及其预测值iy?为因变量,作散点图,可得线性拟合图(图 4)。最大积雪深度 x(米)Residual Plot-3-2-10123051015202530最大积雪深度 x(米)残差图 3 残差图最大积雪深度 x(米)Line Fit Plot010203040506
13、00102030最大积雪深度 x(米)灌溉面积y(千亩)灌溉面积 y(千亩)预测 灌溉面积y(千亩)图 4 线性拟合图7 第五部分,概率输出结果在选项输出中,还有一个概率输出(Probability Output)表(表 5)。第一列是按等差数列设计的百分比排位,第二列则是原始数据因变量的自下而上排序(即从小到大)选中图 1 中的第三列(C 列)数据,用鼠标点击自下而上排序按钮,立即得到表5 中的第二列数值。当然,也可以沿着主菜单的“数据(D)排序(S)”路径,打开数据排序选项框,进行数据排序。用表 5 中的数据作散点图,可以得到Excel 所谓的正态概率图(图 5)。表 5 概率输出表Normal Probability Plot0102030405060020406080100Sample Percentile灌溉面积y(千亩)图 5 正态概率图【几点说明】第一,多元线性回归与一元线性回归结果相似,只是变量数目m1,F 值和 t 值等统计量与R值也不再等价,因而不能直接从相关系数计算出来。第二,利用 SPSS给出的结果与Excel 也大同小异。当然,SPSS可以给出更多的统计量,如DW值。在表示方法上,SPSS也有一些不同,例如P Value(P值)用 Sig.(显著性)表征,因为二者等价。只要能够读懂Excel 的回归摘要,就可以读懂SPSS回归输出结果的大部分内容。