《数学建摸实验-有氧锻炼(共7页).doc》由会员分享,可在线阅读,更多相关《数学建摸实验-有氧锻炼(共7页).doc(7页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上实 验 报 告课程名称 数学建模 年级 12级 日期 5.19 姓 名 叶美芳 学号 *1235 班级 数学*班实验名称 回归分析一实验目的及要求:1. 掌握回归分析的基本理论2. 会运用回归分析相关理论进行编程和解决实际问题二实验内容:1.背景:由于有氧锻炼中,人体的耗氧能力是衡量人身体健康状况的重要指标,而耗氧能力(人体单位重量单位时间内最大的耗氧量)在日常生活中难以直接测量,故本文建立相关数学模型,采用机理分析和回归分析以及数据拟合相结合的办法,以期望使普通大众能够方便快键地对自身身体状况有更为直接的了解,也能更加合理科学地锻炼。2.题目:习题7:在有氧锻炼中人
2、的耗氧能力 (mL/(minkg)是衡量身体状况的重要指标,它可能与以下因素有关:年龄,体重(kg),1500m跑的时间(min),静止时心跳速度(次/min),跑步后心速(次/min),对24名40至57岁的志愿者进行了测试,结果如下表1.1(节选),试建立耗氧能力y与诸因素的之间的回归模型。表1.1序号123421222324Y44.645.354.359.639.446.145.454.7X14440444257545250X289.575.185.868.273.479.476.370.9X36.826.045.194.97.586.75.785.35X4626245405862484
3、8X5178185156166174156164146(1) 若中只许选择1个变量,最好的模型是什么?(2) 若中只许选择2个变量,最好的模型是什么?(3) 若不限制变量的个数,最好的模型是什么?(4) 对最终模型观察残查,有无异常点,若有,剔除后如何?3.做法 :本题不同小问需要建立不同模型,由于专业知识所限,并且提供的数据较少,难以做出精确符合现实情况的模型,因此这里用最简单的线性回归法进行拟和模型基本形式如下:事实上,中的项(高次项和交互项)对于本题目来讲意义不大,因为所给定的5个自变量和因变量之间关系比较模糊,几个变量彼此之间的联系也很难说清,因此用自变量的一次线性拟和就足以适应本题的
4、要求。但作为练习,还是将每种回归方法都使用到了,可以用于参考。具体采用的各个模型将在下面单独说明,这里不再重复。4.程序由于本题需要建立多组模型,并且要在不断的调试中发现最合理的,很多命令都要在这个过程中不断使用,这里仅仅给出使用的最基本的命令。数据clear A=; %数据矩阵,略n=24; y=A(2,:); %提取各个数据x1=A(3,:);x2=A(4,:);x3=A(5,:);x4=A(6,:);x5=A(7,:);绘制散点图(大致判断影响情况)for i=1:5 subplot(2,3,i),plot(A(i+2,:),y,+),grid pause end pause 单参数回归
5、(第一问)X=ones(n,1),x4; %这里检验的是自变量x4,实际操作时要分别检验x1x5 b,bint,r,rint,s=regress(y,X); %回归分析程序(=0.05)b,bint,s, %输出回归系数估计值、置信区间、以及统计量rcoplot(r,rint) %残差图Polytool(x3,y,2) %检验一元多项式回归的结果,输出交互式画面双参数回归(第二问):用逐步回归法找出最合理的两个变量X5=x1,x2,x3,x4,x5; stepwise(X5,y); %利用输出的交互式画面,可以选出最佳的两个变量XX=x3,x1; %当得到了最佳的两个变量后(这里假设是x3x1
6、)rstool(XX,y,linear) %检验二元情况下的交互项和高次项全部参数回归(第三问):X5=x1,x2,x3,x4,x5; %仍然用逐步回归法找出最合理的组合方式stepwise(X5,y) 第五问要求对残差进行分析,并且剔除异常点,可以在该问得到最终模型后,采用regress得到的残差值和置信区间并根据其绘制残差图,然后再进行剔除操作重新检验。5.运行结果及分析散点图 (1) (2) (3) (4) (5)从左上到右下的顺序为x1x5.可以由点的分布大致看出,除了x3自变量呈现比较明显的负相关趋势以外,对于其他的各个自变量都难以直接观测出其对于因变量的影响。根据这种结果,可以假设
7、自变量x3(1500m跑后心速)最直接的与锻炼耗氧能力相关,下面通过对各个自变量的单参数回归进行检验。单参数回归被检对象011置信区间R2FPs2X164.3812-0.3599-0.8309,0.11110.10252.51150.127331.2484X252.7432-0.0644-0.4334,0.30460.00590.13100.730934.6097X383.4438-5.6682-7.1252,-4.21120.747465.095908.7943X467.1094-0.3599-0.6262,-0.09360.26317.85600.010425.6547X594.0024-
8、0.2739-0.5095,-0.03840.20915.81690.024727.5352由单参数回归的结果可以证明X3(1500m跑后心速)可以最好的反映出y(锻炼耗氧能力)的情况。由1置信区间可以看出,x1、x2包含0在内,即y可能与该参数无关,所以不选择,并且两者的p值已经明显的大于=0.05,则不考虑x1、x2。比较x3x5后发现,x3的2R-决定系数明显的大于x5的,决定系数反映的是在因量的总变化中自变量引起的那部分的比例,2R大说明x3自变量对因变量起的决定作用最大。并且x3的p和s2值也都比较小,所以最终确定x3可以最好的反映出y的情况。用Polytool检验含x3高次(2次)
9、项的情况,参量Export如下表:012回归系数估计值122.7242-17.90720.9356置信区间下限67.1878-35.0387-0.3695置信区间上限178.2605-0.77572.2408可以同之前的仅含一次项的结果进行比较,发现各个参量的置信区间都很宽,且2的置信区间过0。可以认为二次项的引入是不重要的。因此采用如下单参数模型描述y是最准确地:其中:83.4438,-5.6682其中:83.4438,-5.6682双参数回归:用stepwise作逐步回归,部分过程和最终结果如下图:根据题目要求,最终得到取双参量时的最佳结果(RMSE参量最小)是取x3 (1500m跑后心速
10、)和x1(年龄)自变量。但事实上,实际的逐步回归过程在此时并没有结束,最终的最优结果是只取x3参量。这说明取x3、x1参量同只取x3相比优势并不明显。通过rstool命令检验二元情况下的交互项和高次项情况,下图是linear情况下固定单参数进行预测的结果:项对应的系数常数项X3X1X32X12X3*X1RMSELinear90.8529-5.4671-0.1872.8704Purequadratic142.8835-14.7911-1.17180.71110.01092.9028Interaction120.1929-10.1096-0.83640.10252.9033Quadratic144
11、.4666-16.4515-1.01990.04500.68180.00622.9786可以看到高次项和相关项的系数都非常小,说明其对于y的影响不大。根据rmse的结果进行比较,仍然选择linear回归方式,即只用二元自变量的一次项。yxx其中:01390.8529,=-0.1870,-5.4671全参数回归根据以上的分析可以验证模型建立时的猜想,本题中5个字变量和y的关系都不是很直接的,除x3外其他变量的影响很小,所以在最终完整模型中,不再考虑高次项和交互项的影响,一方面简化模型,一方面大大节省的筛选的时间。所以采用stepwise命令,仅对五元变量x1x5的一次项进行回归分析,结果如下:E
12、xport参数结果:置信区间Coeff.Set-statp-valX1-0.3254-0.594 -0.0568-0.32540.1288-2.52740.02X200 0-0.01310.0851-0.15390.8793X3-4.5694-6.1842 -2.9546-4.56940.7741-5.90260X400 0-0.03840.0915-0.41930.6797X5-0.1561-0.3126 0.0004-0.15610.075-2.08090.0505R2=0. F=29.2364 RMSE=2.66669 P=1.64368*e-7 最终取以下三个参数得到最佳回归结果:x3
13、 (1500m跑后心速)、x1(年龄)以及x5(跑步后心速)。但仍需要进行一般回归分析(regress)确定常数项并观察残差,结果如下:最终得到的结果整体上优越于剔除异常点之前的结果(不再粘贴结果)。但是事实上,由于数据点经过剔除不断的结果,模型最终的形式和实际统计到的24组数据的整体情况偏离越来越大,也就是说:剔除异常点虽然能够一应程度上降低其对于整体情况的干扰作用,而剔除的过程也放大了其他原本正常数据点的异常性,所以异常点可能会不断产生,但是剔除的数量增加即采样数据的减少也会削弱模型反省整体性能的能力。是一对矛盾,在数据点较少的时候尤其明显。比较科学的做法是:只进行1次或少次剔除,保证整体
14、性,又去掉了最主要的异常点。这里的最终结果采用剔除最初两个异常点(10,15号)后的结果,在此也附上完整数据(剔除之前)的结果,作为第3问的答案:完整数据(第三题结果):回归参数取值置信区间118.013588.1010 147.92601-0.3254-0.5940 -0.05683-4.5694-6.1842 -2.95465-0.1561-0.3126 0.0004R2FPs20.814329.23640.00007.1112其中:=118.0135, =-0.3254, =-4.5694, =-0.1561一次剔除(最终结果)回归参数取值置信区间119495594.6827 144.3
15、0841-0.3623-0.5991 -0.12553-4.0411-5.3617 -2.72055-0.1774-0.3030 -0.0518R2FPs20862537.62690.00004.4400其中:=119.4955, =-0.03623, =-4.0411, =-0.17741500m跑后心速、年龄以及跑步后心速三个参数最能够反映锻炼耗氧量这个重要的身体状态指标。三种心跳速度越快,说明耗氧量越大;速度越慢,即时间越长,说明耗氧量越小。三实验总结:各回归模型之间的区别:5重线性回归模型是对所有的相关因素,统一作线性回归分析,没有考虑其显著程度;3 重线性回归模型,剔除了5 重线性回归模型中显著程度较低的因素, 主要研究显著程度较高的因素与耗氧能力之间的关系,即只考虑主要因素与耗氧能力之间的关系; 完全二次非线性回归模型,, 讨论了人体耗氧能力与诸相关因素之间的二次非线性关系,实现了模型与实际数据更精确的拟合.四问题与心得:从这个实验中我了解到回归直线分析的重要性。实验用了matlab软件中的linprog函数和lingo来求此题的线性规划问题回归分析问题,这两个模型简单明了,易于理解,原理清晰。专心-专注-专业