《2022年概率论与数理统计课程设计方案一元线性回归分析 .pdf》由会员分享,可在线阅读,更多相关《2022年概率论与数理统计课程设计方案一元线性回归分析 .pdf(19页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系摘要数理统计是具有广泛应用的数学分支,而区间估计和假设检验问题在其中占有很重要的地位。对于正态总体期望和方差的区间估计和假设检验问题已有完备的结论;对于非正态总体期望和方差的区间估计和假设检验问题,在大样本的情况下,可利用中心极限定理转化为正态总体来解决。但实际问题中常常碰到非正态总体,而且是小样本的情况,因此对它的区间估计和假设检验是一个值得研究的问题本文利用概率纶与数理统计中的所学的回归分析知识,对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,利用这
2、些数据做出刀具厚度x关于时间y的线性回归方程,并 MATLAB 与 EXCEL软件对验数据进行分析处理,得出线性回归系数与拟合系数等数据,并用F 检验法检验了方法的可行性,同时用分布参数置信区间和假设检验问题,得出了刀具厚度x关于时间y的线性关系显著,并进行了深入研究,提出了小样本常用分布参数的置信区间与假设检验的解决方法。关键词: 统计量法;置信区间;假设检验;线性关系;回归分析精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 1 页,共 19 页目录一设计目的2 二设计问题2 三设计原理3 四方法实现7 五设计总结16 参考文献 17 致谢 17
3、 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 2 页,共 19 页一设计目的了解一元回归方程,回归系数的检验方法及应用一元回归方程进行预测的方法;学会应用MATLAB 软件进行一元回归实验的分析方法。同时更好的了解概率论与数理统计的知识,熟练掌握概率论与数理统计在实际问题上的应用,并将所学的知识结合Excel 对数据的处理解决实际问题。本设计是利用一元线性回归理论对用切削机房进行金属品加工时为了适当地调整机床,测量刀具的磨损速度与测量刀具的厚度间的关系建立数学模型,并用Excel 分析工具库中的回归分析软件进行解算。二设计问题用切削机床进行金属
4、加工时,为了适当地调节机床,需要测定刀具的磨损速度。在一定时间(例如每隔一小时)测量刀具的厚度,得到数据如下:切削时间hxi刀具厚度cmyi切削时间hxi刀具厚度cmyi0 30.0 15 24.8 1 29.1 16 24.0 2 28.4 17 23.7 3 28.1 18 23.1 4 28.0 19 22.9 5 27.7 20 22.6 6 27.5 21 22.3 7 27.2 22 22.1 8 27.0 23 21.7 9 26.8 24 21.5 10 26.5 25 21.3 11 26.3 26 21.0 12 26.1 27 20.6 13 25.7 28 20.3 1
5、4 25.3 29 20.1 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 3 页,共 19 页由此,我们利用这些数据做出刀具厚度x关于时间y的线性回归方程。三设计原理在实际问题中,经常会出现两个变量之间的相关关系不是线性的(即直线型),而是非线性的(即曲线型)。设其中有两个变量x与y,我们可以用一个确定函数关系式:)(xyx大致的描述y与x之间的相关关系,函数)(xu称为y关于x的回归函数,方程)(xuy成为y关于x的回归方程。一元线性回归处理的是两个变量x与y之间的线性关系,可以设想y的值由两部分构成:一部分由自变量x的线性影响所致,表示x的
6、线性函数bxa;另一部分则由众多其他因素,包括随机因素的影响所致,这一部分可以视为随机误差项,记为。可得一元线性回归模型bxay(1)式中,自变量x是可以控制的随机变量,成为回归变量;固定的未知参数a,b成为回归系数;y称为响应变量或因变量。由于是随机误差,根据中心极限定理,通常假定),0(2N,2是未知参数。确定y与x之间的关系前,可根据专业知识或散点图,选择适当的曲线回归方程,而这些方程往往可以化为线性方程或者就是线性方程,因此我们可以用线性方程:bxay大致描述变量y与x之间的关系;精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 4 页,共
7、19 页1) 模型回归系数的估计为了估计回归系数,假定实验得到两个变量x与y的n个数据对,3, 2, 1,niyxii我们将这n对观测值代入式( 1),得nibxaynii,3 , 2, 1,这 里n,21互 独 立 的 随 机 变 量 , 军 服 从 正 态 分 布 , 即n,1,2,3i),N(0,2回归系数估计的方法有多种,其中使用最广泛的是最小二乘法,即要求选取的a,b, 的值使得述随机误差 的平方和达到最小,即求使得函数niiiniibxaybaQ1221,取得最小值的a,b。由于baQ,是a,b的二元函数,利用微积分中的函数存在极值的必要条件,分别对baQ,求a,b偏导数,并令其为
8、0,构成二元一次方程组niiibxay00)(,010)(iiiiixbxay,化简后得到如下正规方程组,)(11niniiiybxnaa.)()(1112niiininiiiyxbxax解方程组得到总体参数ba,估计量iixnbnay1?1?,22)(?iiiiiixxnyxyxnb精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 5 页,共 19 页这里,)2, 1(和niyxii均已有的观测数据。由此得到回归方程xbay?带入观测ix,得到值iy称为回归预测值。方程的直线称为回归直线。2) 回归方程显著性检验建立一元线性回归方程当且仅当变量之间
9、存在线性相关关系时才是有意义的,因此必须对变量之间的线性相关的显著性进行检验,即对建立的回归模型进行显著性检验。我们首先引入几个概念:(1)niTyySS1i2)(,称为TSS总偏差平方和,它表示观测值iy总的分散程度;(2)niRyySS1i2)?(,称RSS为回归平方和,它是由回归变量x的变化引起的,放映了回归变量x对变量y线性关系的密切程度;(3)niiEyySS1i2)?(,称ESS为残差(剩余)平方和,它是由观测误差等其他因素起误差,它的值越小说明回归方程与原数据拟合越好。可以证明下列关系成立ERTSSSSSS精选学习资料 - - - - - - - - - 名师归纳总结 - - -
10、 - - - -第 6 页,共 19 页即niyy1i2)(=niyy1i2)?(+ niiyy1i2)?(我们主要考虑回归平方和在总偏差和中所占的比重,记TRSSSSR2。(0=R F(1,n-2 ), 则认为y 与 x 之间的线性关系显著;如果F= F(1,n-2 ),则认为 y 与 x 之间的线性关系不显著,或者不存在线性关系,在实际应用中也可以通过F 对应的概率 P y=30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8 24.0 23.7 23.1 22.9 22.6 22.3 2
11、2.1 21.7 21.5 21.3 21.0 20.6 20.3 20.1。 x=0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29。 plot(x,y,*) 生成图( 1),可以看出 x 和 y 大体成线性关系。图 1 散点图(横轴: X 纵轴 Y)(2)作一元回归分析,输入: n=length(y)。 X=ones(n,1),x。 b,bint,r,rint,s=regress(y,X)。 b,bint,sb = 29.5501 -0.3329 bint = 精选学习资料 - -
12、- - - - - - - 名师归纳总结 - - - - - - -第 8 页,共 19 页 29.3326 29.7676 -0.3458 -0.3200 s = 1.0e+003 * 0.0010 2.8019 0 0.0001 这个结果可整理成表1 的形式。回归系数回归系数估计值回归系数置信区间029.5501 29.3326,29.7676 1-0.3329 -0.3458,-0.3200 12R9.2801F001.0p表 1 MATLAB回归分析结果表一元回归方程为:xy3329.05501.29从几个方面都可以检验模型是有效的:F检验P-接近于 0;1的置信区间不含 零 点;p;
13、 用MATLAB命 令finv(0.95,1,28) 计 算 得 到FF1960. 428, 195.0,F为统计量观测值,所以X与 Y的相关性显著。残差及其置信区间作图代码输入:rcoplot(r,rint) 结果如图 2 所示:精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 9 页,共 19 页51015202530-1-0.8-0.6-0.4-0.200.20.40.60.81Residual Case Order PlotResidualsCase Number图 2 残差图(横轴:削磨时间纵轴:残差分析值)所谓残差是指实际观察值与回归估计
14、值的差,残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。从残差图可以看出,数据的残差离零点较近,且残差的置信区间均包含零点,这说明回归模型xy3329.05501.29能很好的符合原始数据。(3)讲上面的回归系数估计值5501.29?0,3329.0-?1带入回归方程,刀具磨损速度的测试中,对时间间隔为30/h的刀具厚度进行预测,得到19.5631?0y。在05. 0,刀具的厚度预测区间简化为suysuy210210?,?,输入计算指令: t1=19.5631-norminv(0.0975,0,1)*sqrt(sum(r.2)/16) t1 = 20.0742 t2=1
15、9.5631+norminv(0.0975,0,1)*sqrt(sum(r.2)/16) 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 10 页,共 19 页t2 = 19.0520 即时间间隔为30/h 的刀具磨损速度测试中,刀具厚度的置信度为0.95 的预测区间为0742.20,0520.19。也可以用命令: y=30 29.1 28.4 28.1 28.0 27.7 27.5 27.2 27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8 24.0 23.7 23.1 22.9 22.6 22.3 22.1 21.
16、7 21.5 21.3 21.0 20.6 20.3 20.1。 x=0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29。 polytool(x,y,1,0.05) 作出散点图及拟合曲线,并对30 x时的 y 进行预报,结果如图 3 所示。图 3 散点图及拟合曲线如图 3 所示,红线表示为数据离合区间,蓝色“+”表示为数据散点分布,绿色表示为拟合曲线。(4) 下面用 Excel “分析工具库”提供的“回归”工具,找出线性回归方程,并检验其显著性。1、具体步骤如下:1在【工具】菜单中选中【
17、数据分析】,则会弹出【数据分析】对话框,然后“分析工具”中选择“回归”选项,如图二所示。单击【确定】后,则弹精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 11 页,共 19 页出【回归】对话框,如图所示。2填写【回归】对话框。如图所示,该对话框的内容较多,可以根据需要,选择相关工程。在“X值输入区域”内输入队因变量数据区域的引用,该区域必须有单列数据组成,如本题中组分B;在“ Y只输入区域”输入对自变量数据区域的引用,如本题中组分 C。“标志”:如果输入区域的第一行中包含标志项,则选中此复选框,本题中的输入区域包含标志项;如果在输入区域中没有标志
18、项,则应清楚此复选框,Excel 将在输出表中生成合适的数据标志。“置信度”:如果需要在汇总输出表中包含附件的置信度信息,则选中此复选框,然后在右侧的编辑框中,输入所要使用的置信度。Excel 默认的置信度为95% ,相当于显著性水平a=0.05。“常数为零”:如果要强制回归线通过原点,则选中此复选框。“输出选项”:选择“输出区域”,在此输出对输出表左上角单元格的引用。3“残差”:如果需要以残差输出表形式查看残差,则选中此复选框。“标准残差”:如果需要在残差输出表中包含标准残差,则选中此复选框。“残差图”:如果需要生成一张图表,绘制每个自变量及其残差,则选中此复选框。“线性拟合图”:如果需要为
19、预测值和观察值生成和观测值生车一个图表,则选中此复选框。“正态概率图”:如果需要绘制正态概率图,则选中此复选框。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 12 页,共 19 页图 4 散点图图 5 Excel 数据分析工具图Excel 数据分析工具精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 13 页,共 19 页图 6 回归分析工具界面回归分析工具运行结果:Multiple R 0.995041 R Square 0.990106 Adjusted R Square 0.989752 标准误差
20、0.298135 观测值30 表 2 回归统计表 2 中,“ Multiple R”是线性回归的系数“R Square”是拟合系数“Adjusted RSquare ”调整后的拟合系数。df SS MS F Significance F 回归分析1 249.0449 249.0449 2801.898 1.29E-29 残差28 2.488762 0.088884 总计29 251.5337 表 3 方差分析Coefficients 标准误差t Stat P-value Lower 95% Upper 95% 下限95.0% Intercept 29.55011 0.106197 278.25
21、75 9.73E-50 29.33257 29.76764 29.33257精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 14 页,共 19 页X Variable 1 -0.33288 0.006289 -52.933 1.29E-29 -0.34576 -0.32 -0.34576表 4 回归分析结果 1 RESIDUAL OUTPUTPROBABILITY OUTPUT观测值预测 Y残差标准残差百分比排位Y129.550110.4498921.5357341.66666720.1229.21723-0.11723-0.40016520.33
22、28.88435-0.48435-1.653348.33333320.6428.55146-0.45146-1.541111.6666721528.21858-0.21858-0.746151521.3627.8857-0.1857-0.6339118.3333321.5727.55282-0.05282-0.1803121.6666721.7827.21994-0.01994-0.068072522.1926.887060.112940.38552828.3333322.31026.554180.2458210.83912531.6666722.61126.22130.278702 0.95
23、13663522.91225.888420.4115831.40496338.3333323.11325.555540.5444641.8585641.6666723.71425.222650.4773451.62944645241524.889770.4102261.40033148.3333324.81624.556890.2431070.8298651.6666725.31724.22401-0.22401-0.764685525.71823.89113-0.19113-0.6524458.3333326.11923.55825-0.45825-1.5642661.6666726.320
24、23.22537-0.32537-1.110676526.52122.89249-0.29249-0.9984268.3333326.82222.55961-0.25961-0.8861871.66667272322.22673-0.12673-0.432597527.22421.89385-0.19385-0.661778.3333327.52521.56096-0.06096-0.208181.6666727.72621.228080.0719170.24549385282720.89520.1047980.35773488.3333328.12820.562320.0376790.128
25、61991.6666728.42920.229440.070560.240869529.13019.896560.2034410.69445798.3333330表 5 回归分析结果 残差与标准残差观测值预测 Y 残差1 29.55011 0.449892 2 29.21723 -0.11723 3 28.88435 -0.48435 4 28.55146 -0.45146 5 28.21858 -0.21858 精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 15 页,共 19 页6 27.8857 -0.1857 7 27.55282 -0.0
26、5282 8 27.21994 -0.01994 9 26.88706 0.11294 10 26.55418 0.245821 11 26.2213 0.278702 12 25.88842 0.411583 13 25.55554 0.544464 14 25.22265 0.477345 15 24.88977 0.410226 16 24.55689 0.243107 17 24.22401 -0.22401 18 23.89113 -0.19113 19 23.55825 -0.45825 20 23.22537 -0.32537 21 22.89249 -0.29249 22 22
27、.55961 -0.25961 23 22.22673 -0.12673 24 21.89385 -0.19385 25 21.56096 -0.06096 26 21.22808 0.071917 27 20.8952 0.104798 28 20.56232 0.037679 29 20.22944 0.07056 30 19.89656 0.203441 表 6 回归分析结果 3 用EXCEL 作出散点图02040010203040X 消磨时间Y道具厚度Y预测 Y图 7 EXCEL处理数据得出的散点图精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - -
28、-第 16 页,共 19 页X Variable 1 Residual Plot-1-0.500.51010203040X Variable 1残差图 8 用 EXCEL处理数据得出的残差分布图由表 3 所知,若保留四位有效数字,该回归方程的截距是29.5501,斜率为-0.3329 ,所以回归方程的表达式为:xy3329. 05501.29;根据回归统计结果,知决定系数2R=0.9898,即相关系数r=0.9231 ,说明自变量与因变量之间有较高的相关性;根据方差分析的结果,F=2801.9,有效的 F0.01,所以建立的回归方程非常显著。在表五中,除了列出了回归系数,还有标准误差等工程。其
29、中“标准误差”表示的事对应回归系数的标准误差,其中偏回归系数的标准误差。“t Stat ”就是t检验时的统计量t ;如果多元线性回归,则可直接根据“t Stat ”的大小,判断因素的主次顺序。“P-value ”表示 t 检验偏回归系数不显著的概率,如果P-value0.01 ,则可认为该系数对应的变量对实验结果影响非常显著( * * ),如果0.01 P-value 0.05,则可认为该系数对应的变量对实验结果影响显著( *);对于常数项, P-value 则表示常数项为零的几率。由表 3 所知,若保留四位有效数字,该回归方程的截距是29.5501,斜率为 -0.3329,所以所回归方程的表
30、达式为:xy3329.05501.29;根据回归统计结果,知决定系数9898.0 x即相关系数9231.0r,说明自变量与因变量之间有有着五设计总结通过对概率论与数理统计的这道实际问题的解决,不仅使我更加深刻的理解了概率论与数理统计的基础知识,而且使我对这些知识在实际中的应用产生了浓厚的兴趣,同时对我学习好概率论与数理统计这门课有很大帮助。在实现这道题的过程中我应用了Excel 软件,学会了该软件的一些新的应用,更加熟精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 17 页,共 19 页练的操作该软件进行一些数据上的处理。参考文献1沈恒范 .概率论
31、与数理统计教程 M.第四版 .北京:高等教育出版社 ,2003.4:140-196 2朱燕堂、赵选民、徐伟.应用概率统计方法M. 第 2 版.西北工业大学出版社,2000年元月 .西安3章栋恩、马玉兰、李双、徐元平.MATLAB 高等数学数据分析 M.西北工业大学出版社 ,2002.北京致 谢本论文是张玉春老师指导下完成的。她严肃的科学态度,严谨的治学精神,精益求精的工作作风,深深地感染和激励着我。在此,我向张老师致以诚精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 18 页,共 19 页挚的谢意和崇高的敬意。同时我还要感谢我的同学们,在论文设计中,他们给了我很多的建议和帮助。我还要感谢我的论文中被我引用或参考的文献的作者。精选学习资料 - - - - - - - - - 名师归纳总结 - - - - - - -第 19 页,共 19 页