《刘杰20120512013第9章:多元回归分析教学内容.doc》由会员分享,可在线阅读,更多相关《刘杰20120512013第9章:多元回归分析教学内容.doc(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Good is good, but better carries it.精益求精,善益求善。刘杰20120512013第9章:多元回归分析-第9章:多元回归分析实验目的:1.直观了解多元回归分析的基本内容;2.掌握用数学软件求解多元回归分析问题。实验内容:1.多元回归分析的基本理论;2.用数学软件求解多元回归分析问题;3.课堂实验练习。一、多元线性回归(一)回归模型称如下模型为多元线性回归模型(高斯-马尔可夫线性模型)其中,。称为回归平面方程。%Y必须是列向量多元线性回归分析的主要任务是:(1) 用样本值对未知参数和作点估计;(2) 对回归系数作假设检验;(3) 在处对y作预测与控制,并对y作
2、区间估计。(二)模型参数估计1.回归系数的最小二乘估计作离差平方和:最小二乘法就是选择的估计,使得称为的最小二乘估计(LS估计)。2.的无偏估计残差平方和:,则,称为剩余方差,它是的无偏估计。(三)检验、预测与控制1.回归方程的显著性检验对回归方程的显著性检验,可提出如下原假设:若假设被拒绝,则回归显著,认为与之间确有线性关系,所求的线性回归方程有意义;否则回归不显著。2.预测(1)点预测:根据回归方程,给定自变量,预测.(2)区间预测:给定自变量,预测的置信区间.(四)回归分析的相关命令1.确定回归系数的点估计:b=regress(Y,X)2.求回归系数的点估计和区间估计、并检验回归模型:残
3、差的点估计回归系数的区间估计残差的区间估计用于检验回归模型的四个数:相关系数r2、F值、接受原假设的概率p、残差方差的估计。回归系数的点估计显著性水平b,bint,r,rint,stats=regress(Y,X,alpha)(1)相关系数越接近1,说明回归方程越显著;(2)时拒绝,值越大,说明回归方程越显著;(3)时,拒绝,说明回归模型成立。3.画出残差及置信区间:rcoplot(r,rint)%筛选不符合的数据4.方程回归系数的检验:stepwise(X,Y)【例9-1】火柴消费与各因素之间的关系分析火柴公司的火柴销售量与各方面因素有很大联系,根据往年的销售情况,收集到了以下的一些数据:年
4、份火柴销售量y/万件煤气、液化气用户x1/万户卷烟销售量x2/万箱蚊香销售量x3/十万盒打火石销售量X4/万粒197117.8427.4321.4311.0925.78197218.2729.9524.9614.4828.16197320.2933.5328.3716.9724.26197422.6137.3142.5720.1630.18197526.7141.1645.1626.3917.08197631.1945.7352.4627.047.39197730.5050.5945.323.083.88197829.6358.8246.8024.4610.53197929.6965.2851
5、.1133.8220.09198029.2571.2553.2933.5721.22198131.0573.3755.3639.5912.63198232.2876.6854.0048.4911.17试分析火柴的销售量与各个因素之间的关系。回归分析及其检验运行结果如下:从上述分析结果可得:回归方程:相关系数:,说明线性程度较好;检验统计量:,说明回归方程显著;接受原假设的概率:,说明回归方程显著。残差分析,作残差图从上图可以看出,第9个点和第11个点为奇异点,可以舍弃后重新求解回归方程。对系数进行逐步检验从上表可以看出系数对影响不显著,可以认为蚊香的销售量与火柴的销售量基本无关,删除该变量,重
6、新计算如下:经过重新计算,可得回归方程如下:二、一元多项式回归(一)回归1.确定多项式系数格式:p,s=polyfit(x,y,m)功能:利用m次多项式对数据x,y进行曲线拟合,p为多项式系数,s为一个矩阵,用来估计预测误差。2.一元多项式回归命令格式:polytool(x,y,m)功能:此命令产生一个交互式的画面,画面中有拟合曲线和y的置信区间。(二)预测和预测误差估计格式1:Y=polyval(p,x)功能:求回归多项式p在x处的预测值Y。格式2:Y,delta=polyconf(p,x,s,alpha)功能:求回归多项式p在x处的预测值Y,以及预测值Y的置信区间Ydelta.【例9-2】
7、观测物体降落的距离s与时间t的关系,得到数据如下表:t(s)1/302/303/304/305/306/307/30s(cm)11.8615.6720.6026.6933.7141.9351.13t(s)8/309/3010/3011/3012/3013/3014/30s(cm)61.4972.9085.4499.08113.77129.54146.481.作二次多项式回归运行结果:即回归模型为:2.预测与作图上图的结果表明二次多项式回归方程效果显著。思考:可否将上例中的一元多项式回归转化为多元线性回归进行分析?【课堂练习】1.(人口预测)以下是美国人口两个世纪以来的统计数据:(单位:百万)年
8、份18001810182018301840185018601870188018901900人口5.37.29.612.917.123.231.438.650.262.976.0年份1910192019301940195019601970198019902000人口92.0106.5123.2131.7150.7179.3204.0226.5251.4275.0(1)请利用一元多项式回归方法建立美国人口预测模型;(2)试预测2020年的美国人口数量。2.世界卫生组织推荐的“体质指数”BMI(BodyMassIndex)的定义为BMI=W/H,其中W表示体重(单位:kg),H表示身高(单位:m)。
9、显然它比体重本身更能反映人的胖瘦,对30个人测量他(她)们的血压和体质指数,如下表所示:序号血压/mmHg年龄体质指数吸烟习惯序号血压/mmHg年龄体质指数吸烟习惯11443924.20161304822.2122154731.11171354527.4031384522.60181141818.8041454724.01191162022.6051626525.91201241921.5061424625.10211363625.0071706729.51221425026.2181244219.70231203923.5091586727.21241202120.30101545619.3
10、0251604427.11111626428.01261585328.61121505625.80271446328.30131405927.30281302922.01141103420.10291252525.30151284221.70301756927.41(1) 请建立血压与年龄以及体质指数之间的模型,并作回归分析;输入的程序:x=1443924.20;2154731.11;1384522.60;1454724.01;1626525.91;1424625.10;1706729.51;1244219.70;1586727.21;1545619.30;1626428.01;1505625
11、.80;1405927.30;1103420.10;1284221.70;1304822.21;1354527.40;1141818.80;1162022.60;1241921.50;1363625.00;1425026.21;1203923.50;1202120.30;1604427.11;1585328.61;1446328.30;1302922.01;1252525.30;1756927.41;X=ones(size(x(:,1),x(:,2:3);Y=x(:,1);b,bint,r,rint,stats=regress(Y,X)输出的结果:b=30.75500.47013.6754bi
12、nt=-10.475271.98520.02550.91471.61995.7309r=5.965747.84443.02583.94005.4949-2.6329-0.67691.0948-4.223425.9836-1.7534-1.9067-18.8301-10.6145-2.2560-4.9143-17.61635.6851-7.22175.2914-3.5643-8.5563-15.46154.76178.9565-2.7876-20.38604.7526-10.495911.1013rint=-22.126634.058031.795663.8933-24.939630.9911-
13、24.246832.1268-21.681632.6713-30.892925.6272-27.613626.2598-25.587727.7774-31.395722.94894.178147.7891-29.200425.6935-29.927526.1141-45.60027.9399-37.604516.3754-30.040825.5287-32.514522.6858-44.35699.1244-20.499531.8697-33.770419.3270-21.366831.9495-31.420524.2918-36.517819.4053-42.972812.0498-22.0
14、85031.6083-18.540836.4537-30.243924.6688-46.59715.8252-22.889332.3946-36.568415.5767-15.539937.7426stats=0.635723.55250.0000189.4198(2) 如果他(她)们还有吸烟习惯的纪录,怎样在模型中考虑这个因素,吸烟会使血压升高吗?;输入的程序:x=1443924.20;2154731.11;1384522.60;1454724.01;1626525.91;1424625.10;1706729.51;1244219.70;1586727.21;1545619.30;16264
15、28.01;1505625.80;1405927.30;1103420.10;1284221.70;1304822.21;1354527.40;1141818.80;1162022.60;1241921.50;1363625.00;1425026.21;1203923.50;1202120.30;1604427.11;1585328.61;1446328.30;1302922.01;1252525.30;1756927.41;X1=ones(size(x(:,1),x(:,2:4);Y=x(:,1);b,bint,r,rint,stats=regress(Y,X1)输入的结果:b=45.363
16、60.36043.090611.8246bint=3.553787.1736-0.07580.79651.05305.1281-0.148223.7973r=9.790744.75836.5734-3.29861.34292.4867-2.50392.6172-7.395628.8084-4.78704.7197-10.9972-9.73620.4360-13.0960-11.26134.0473-6.41765.34240.3993-14.1789-12.04594.33033.2017-6.6774-11.5292-5.6311-7.56398.2656rint=-16.370335.95
17、1730.018459.4982-19.603032.7499-28.996022.3987-24.174226.8599-23.810528.7839-27.982522.9747-22.641127.8754-32.848118.05699.363548.2532-30.583821.0099-20.918930.3583-35.726113.7317-35.346615.8742-25.803326.6754-37.375111.1832-36.261513.7389-20.788328.8828-31.616318.7811-19.946330.6311-25.757526.5561-
18、39.623011.2651-38.119114.0273-21.150829.8115-22.408128.8115-32.302418.9477-35.477012.4186-29.534318.2722-32.255617.1277-16.979433.5106(3) stats=0.685518.89060.0000169.7917画残差图,并作残差分析;输入的程序:rcoplot(r,rint)stepwise(x(:,2:4),x(:,1)输出的结果:回归方程:y=58.5101+0.4302*x1+2.3449*x2+10.3065*x3(4) 请对50岁且体质指数为25的吸烟者的血压做预测。输入:x1=50;x2=25;x3=1;y=58.5101+0.4302*x1+2.3449*x2+10.3065*x3输出:y=148.9491-