《实验七-多元回归模型(共18页).doc》由会员分享,可在线阅读,更多相关《实验七-多元回归模型(共18页).doc(18页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上实验七 多元回归模型(2学时)一、实验目的和要求1. 熟练掌握多元线性回归模型的建立方法,掌握并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制;2.掌握平方和分解公式,会编程求总离差平方和TSS、回归平方和RSS、残差平方和ESS、复相关系数平方等统计量; 3.会根据实际问题对建立多元非线性回归模型,掌握多元线性回归的regress命令格式二、实验内容1.多元线性回归模型(1)多元线性回归模型多元线性回归模型待定常数,回归系数,.矩阵表示对进行次独立观测,得组数据 则有 ,其中 相互独立,且采用矩阵记号 -观测向量- 设计矩阵-待估回归参数
2、向量 -随机误差向量 多元线性回归模型(2)参数估计及性质-的最小二乘估计-随机误差项方差的无偏估计-回归方程给出,可由的观测值和经验回归方程求得的预测值%求回归参数命令(3)复相关系数及相关性检验总离差平方和分解 总离差残差平方和(Total Sum of Squares) 残差平方和(Error Sum of Squares) 回归平方和(Regression Sum of squares)复相关系数平方,回归愈越显著%求复相关系数平方命令TSS=sum(y-mean(y).2) %计算总离差平方和,y是因变量Y数据RSS=sum(y1-mean(y).2) %计算回归平方和ESS=sum
3、(y-y1).2) %计算残差平方和R2=RSS/ESS; %计算样本决定系数R2=RSS/TSS(4)回归方程的显著性检验检验假设: 统计量 给出显著性水平,检验值,当拒绝,认为与线性回归显著;否则线性关系不显著%回归方程显著性检验命令F=(n-p-1)*SSR/SSE %计算的F统计量,n是样本容量F1=finv(0.95,p,n-p-1) %查F统计量0.05的分位数F2=finv(0.99,p,n-p-1) %查F统计量0.01的分位数p=1-fcdf(F,p,n-p-1) %求检验P值,F是上面计算结果(5)回归系数的统计推断检验假设 统计量 检验值当,拒绝,认为与线性回归显著;否则
4、不显著%回归系数显著性的t检验命令T=b1/sqrt(SSE/(n-2)*sqrt(sum(x-mean(x).2) %t统计量观测值to, x是自变量,b1是X的回归系数T1=tinv(0.975,n-p-1) %t统计量0.05的分位数T2=tinv(0.995,n-p-1) %t统计量0.01的分位数p=2-2*tcdf(T,n-p-1) %t检验的p值(6)预测及统计推断 因变量的点估计和区间估计给出,的预测值的置信区间 4.多元线性回归建模的基本步骤(1)对问题进行直观分析,选择因变量与解释变量,作出因变量与各解释变量散点图,初步设定多元线性回归模型参数个数;(2) 多元回归建模命令
5、输入因变量与自变量的观测数据(y,X), 计算参数的估计regeress,调用格式有以下三种:(1)b = regress(Y,X)(2)b,bint,r,rint,stats = regress(Y,X)(3)b,bint,r,rint,stats = regress(Y,X,alpha) 输入参数:因变量观测向量;矩阵,第一列元素全为1,第j列是自变量Xj观测向量,对一元线性回归,取p=1即可;alpha为显著性水平.输出参数:向量b-回归系数估计值bint-回归系数的(1-alpha)置信区间;向量r-残差列向量;rint-模型的残差的(1- a)的置信区间;stats-用于检验回归模型
6、的统计量,有4个分量值:第一个是复相关系数平方,第二个是F统计量值,第三个是与统计量F对应的概率P,当P n,p=size(A); %读取A的行数和列数X=A(:,1:3) %X1-X3构成的数据矩阵 y=A(:,4)mmdl=LinearModel.fit(X,y) %调用LinearModel类的fit方法求解模型 结果输出:结果输出 mmdl = Linear regression model: y 1 + x1 + x2 + x3Estimated Coefficients:参数估计表 Estimate SE tStat pValue 参数估计 残差平方 t统计量 检验P值 (Inte
7、rcept) 162.06 346.15 0.46818 0.64686 x1 7.2739 1.3523 5.3787 9.7273e-05 x2 13.957 3.167 4.4071 0. x3 -4.3996 19.76 -0.22265 0.82702 以下是关于一些统计量的结果:Number of observations: 18, Error degrees of freedom: 14Root Mean Squared Error: 100R-squared: 0.957, Adjusted R-Squared 0.948F-statistic vs. constant mod
8、el: 105, p-value = 7.75e-10 其他结果,点击工作区mmdl,显示很多结果。包括给出3个平方和SSE、SST、SSR及MSE,残差Residuals,因变量拟合Fittde等诸多结果。说明:1),修正后的复相关系数平方 均认为和的线性关系显著.2)F统计量观测值,及检验概率均拒绝原假设,认为和的线性关系显著.3)从参数估计表看出, 认为, 认为认为与关系显著,与关系不显著,可进一步考虑是否剔除.此外,该类结果还给出了一系列统计量值,如Fitted-因变量拟合结果,Residual残差结果,平方和SSESSTSSR等。例3.2.3现代服务业是社会分工不断深化的产物,随着经
9、济的发展,科学技术的进步,现代服务业的发展受到多种因素和条件的影响。不仅受到经济总体发展水平的影响,还受到第二产业、就业、投入等因素的影响,从这几个主要方面出发,利用江苏省统计年鉴的有关数据,通过建立多元线性回归模型对1990-2008年各种因素对现代服务业的影响进行回归分析。假如构建如下江苏省服务业增长模型:,Y代表江苏省服务业的增加值(单位:亿元),反映了江苏省服务业发展的总体水平。x1x4表示影响江苏省服务业发展的四种主要因素和影响,其中x1代表江苏省人均GDP(单位:元),说明江苏省总体经济发展水平对服务业的影响;x2代表江苏省第二产业的增加值(单位:亿元),说明了工业发展对服务业的影
10、响,体现了生产性服务业的需求规模;x3表示江苏省服务业的就业人数(单位:万人); x4表示江苏省服务业资本形成总额(单位:亿元),主要体现服务业投资的经济效应。表3.11 江苏省关于服务业发展及各影响因素相关数据年份服务业增加值Y省人均GDPX1第二产业增加值X2服务业就业人数X3服务业资本形成总额X4198937.76203870.24589.74252.01199028.13210935.53623.19275.82199193.582353101.33640.95330.711992160.623106325.34706.39439.321993286.584321478.79786.3
11、7620.971994277.125801588.72855.97858.911995387.117319528.49920.451102.711996367.168471358.86975.661293.431997291.779371337.741025.221370.211998280.0110049228.241102.311624.741999227.6110695280.051151.681773.372000329.1611765515.741192.021903.372001385.4412882471.571263.772131.872002437.0214396697.03
12、1341.862189.782003601.39168301182.621407.632686.572004704.72202231650.881443.373362.1920051291.11245601917.051542.463930.5620061360.09288141895.81625.064628.5920071769.28339282055.561713.335287.91解:(1)建立回归模型,,n=19,p=4回归分析程序%输入各影响因素的数据x0=203870.24589.74252.01210935.53623.19275.822353101.33640.95330.7
13、13106325.34706.39439.324321478.79786.37620.975801588.72855.97858.917319528.49920.451102.718471358.86975.661293.439371337.741025.221370.2110049228.241102.311624.7410695280.051151.681773.3711765515.741192.021903.3712882471.571263.772131.8714396697.031341.862189.78168301182.621407.632686.57202231650.88
14、1443.373362.19245601917.051542.463930.56288141895.81625.064628.59339282055.561713.335287.91;y=37.76,28.13,93.58,160.62,286.58,277.12,387.11,367.16,291.77,280.01,227.61,329.16,385.44,437.02,601.39,704.72,1291.11,1360.09,1769.28; %Y服务业增加值列向量n,p=size(x0); %矩阵的行数即样本容量n,列数即回归变量个数x=ones(n,1),x0; % 构造设计矩阵,
15、第一列为1,后4列为X1-X4db,dbint,dr,drint,dstats=regress(y,x); % 调用多元回归分析命令,输出回归参数db,回归参数置信区间dbinr,残差dr,残差置信区间drint,及一些统计量dstats程序运行结果:1)回归参数的估计n=19, p=4输出:db =345.2493 0.1672 0.1962 -0.7012 -0.6537得到回归参数估计为所以,服务业增加值Y对4个自变量的线性回归方程为回归参数的区间估计结果dbint = 22.8409 667.6576 的置信区间 0.0731 0.2613 的置信区间为0.0731, 0.2631 0
16、.0201 0.3722 的置信区间 -1.1650 -0.2374 的置信区间 -1.2867 -0.0207 的置信区间2)残差输出结果:dr = -83.8119 -59.4867 0.5889 14.6534 82.1633 7.9945 80.5396 64.6092 -72.1976 44.5876 5.7768 -4.5670 73.2709 -79.9409 -46.9710 -136.1633 113.7938 -10.20225.3624即残差向量残差的置信区间结果drint = -221.9639 54.3402 即的置信区间-221.9639, 54.3402 -205
17、.9396 86.9662 -151.4255 152.6034 -140.5198 169.8267 -62.4916 226.8182 -144.3484 160.3374 -72.5509 233.6301 -92.9528 222.1712 -214.9770 70.5819 -103.0712 192.2464 -137.4586 149.0121 -162.2339 153.0999 -64.6853 211.2271 -195.3209 35.4392 -191.1233 97.1813 -228.7041 -43.6224 -12.7351 240.3227 -149.3628
18、 128.9584 -85.7809 96.5057 的置信区间-85.7809, 96.50573)输出 统计量值dstats = 1.0e+003 * %下列数据要100.00010 0.1727 0.0000 5.7926可决系数R2=0.00010接近0, F统计量观测值,检验P值, Fa,或者由F0的p值为p0=00.05,所以拒绝H0,接受备择假设H1,说明总体回归系数bi不全为零,即表明模型的线性关系在95%的置信水平下显著成立.2)回归系数的t 检验%t检验程序S=MSE*inv(x*x); % 计算回归参数的协方差矩阵T0=db./sqrt(diag(S); % 每个回归参数的T统计量 Ta=tinv(0.975,n-p-1); % t分布的分位数pp=tpdf(T0,n-p-1); % 每个回归参数的T统计量对应的概率t检验程序结果:S =1.0e+04 * 2.2597 -0.0003 -0.0004 -0.0032 0.0024 -0.0003 0.0000 0.0000