《影响戒烟成功的因素分析数模论文(15页).doc》由会员分享,可在线阅读,更多相关《影响戒烟成功的因素分析数模论文(15页).doc(16页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、-影响戒烟成功的因素分析数模论文-第 11 页影响戒烟成功的因素分析摘要本论文通过对戒烟者的年龄、性别、每日抽烟支数及调整的CO浓度等因素的数量变化分析说明影响戒烟成功的因素,分段讨论不同因素下的累加发病率分布情况,用相关系数讨论影响戒烟时间的因素,用多元线性回归讨论影响戒烟成功的主要因素有哪些,建立出三个相应的模型。针对问题一,利用数理统计与概率的知识分别在不同年龄段、不同性别等因素下对234名烟民进行分段,设再次吸烟的人数为p,总人数为p,统计累加发病率,建立一个较为简单的模型。针对问题二,利用相关系数和平均数的方法分两步来讨论分析影响戒烟时间的因素:(1)对于戒烟时间受年龄、每日抽烟支数
2、及调整的CO浓度等因素的影响的差异,首先分别求戒烟时间y与年龄、每日抽烟支数及调整的CO浓度等因素即x的相关系数。以戒烟时间与不同因素分别对应的相关系数r为基础,建立相应的模型.然后根据不同的讨论影响戒烟时间的因素。(2)对于性别对戒烟天数的影响,我们分别求出不同性别对应的戒烟天数t的平均值,再进行比较,由此得出性别对戒烟天数的影响。= (n为不同性别对应的人数)(3)另外,我们分别绘制出戒烟时间与年龄、每日抽烟支数及调整的CO浓度等因素的散点图,由点的分布更直观地体现不同因素对戒烟时间的影响程度。 针对问题三,把戒烟天数作为戒烟成功的标准,运用多元线性回归的知识,由于在问题一和二的解答中,我
3、们得知性别对戒烟情况影响不大,所以只把年龄,每日抽烟支数,CO浓度,调整的CO浓度四个因素作为自变量X,戒烟天数作为Y,建立新的模型:Y=通过本模型分析各种因素与成功戒烟之间的关系,确定了影响戒烟成功的因素。最后,我们对模型的科学性和现实性进行了阐述,并得到了对模型的整体评价,及急需改进之处。关键词:戒烟 概率论与数理统计方法 相关系数 多元线性回归 EXCEL问题重述众所周知,吸烟不仅危害自身健康,而且由此引起的被动吸烟更是危害公众身心健康的主要原因。为此,如何帮助相关人士摆脱烟瘾的困扰也就成为一个重要的研究课题。本文研究数据涉及 234人,他们都自愿表示戒烟但还未戒烟。在他们戒烟的这一天,
4、测量了每个人的CO(一氧化碳)水平并记下他们抽最后一支烟到CO测定时间.。 CO的水平提供了一个他们先前抽烟数量的客观指标,但其值也受到抽最后一支烟的时间的影响, 因此抽最后一支烟的时间可以用来调整CO的水平。记录下研究对象的性别、年龄及自述每日抽烟支数。这个调查跟踪1年, 考察他们一直保持戒烟的天数, 由此估计这些人中再次吸烟的累加发病率, 也就是原吸烟者戒烟一段时间后又再吸烟的比例. 其中假设原烟民戒烟的可信度是很低的(更恰当地说多数是再犯者)戒烟天数是从0到他(她)退出戒烟或研究截止时间(1 年)的天数。假定他们全部没有人中途退出研究。请回答下列问题:1)试分析上述234人中再次吸烟的累
5、加发病率分布情况(如不同年龄段、不同性别等因素下的累加发病率分布情况)。2)你认为年龄、性别、每日抽烟支数及调整的CO浓度等因素会影响戒烟时间(天数)长短吗?如果影响请利用附录中的数据,分别给出戒烟时间与上述你认为有影响的因素之间的定量分析结果。3)请利用附录中的数据建立适当的数学模型,讨论影响戒烟成功的主要因素有哪些,并对你的模型进行可靠性分析。4)请根据你的模型,撰写一篇500字左右的短文,向有志于戒烟的人士提供戒烟对策和建议。问题分析全世界现有11亿人在抽烟,每年约有120万人死于烟草诱发的相关疾病,中国烟民已超过3亿,占全球吸烟者总数的1/3,二手烟民更高达7.4亿人。为什么戒烟如此困
6、难?吸一口烟能在几秒钟内迅速将尼古丁颗粒送进大脑,从而使脑细胞受体释放出多巴胺等使人感觉良好的其他微小颗粒,让烟民明知吸烟百害无一利,也欲罢不能。所以,如何帮助烟民戒烟,成了既急迫又棘手的问题。从理论上讲,戒烟难度可能受年龄,性别,每日抽烟支数等因素的影响。但从数据分析中发现,这种相关性并不十分明显。所以我们将综合累加发病率,影响戒烟时间的因素,影响戒烟成功的主要因素这三方面来,从而得出戒烟对策和建议。1)对影响戒烟成功的因素的理解 问题一:数据中的戒烟天数直接反映了调查对象的戒烟情况,这个调查跟踪1年,则戒烟天数小于一年(365天)的人即为再次发病的人数。由于再次吸烟的累积发病率指总人群,经
7、过一段特定的观察期(一年)之后,再次吸烟的频率,所以分子是在一年内再次吸烟的人数,分母是观察开始时的总人数。且题目要求分析在不同年龄段等因素下的累加发病率,所以我们将进行分段统计。问题二:讨论影响戒烟时间的因素,可以分别求年龄、性别等因素与戒烟时间之间的相关系数r,再根据越接近1则相关性越大的原理来对影响戒烟时间的因素进行排序。另外,由于性别仅有2个变量,我们将对不同性别对应的戒烟天数的平均数进行比较。最后,我们分别制出年龄、性别等因素与戒烟时间之间的散点图,更直观地反应不同因素对戒烟天数的影响程度。问题三:由于戒烟天数可看成戒烟成功的指标,讨论影响戒烟成功的主要因素,可转化为影响戒烟天数的主
8、要因素。与问题二不同的是,问题三是戒烟天数这一因变量与多个自变量对应,从而比较得出主要影响因素;而问题二仅需判断各个因素是否单独对戒烟天数产生影响。所以这里可用多元线性回归的方法来讨论。问题假设由于问题本身尚有一些不确定因素,为使问题抽象成一个数学问题,做如下假设;(1)一年为365天。(2)数据不全的调查对象的已知数据仍有说服力,其数据可正常使用。(3)本题提供的数据能代表全部戒烟人士的情况,数据的象征性,准确性无需置疑。 (4)没有人中途退出该测试。模型分析及求解问题(1):符号说明:p: 再次吸烟的人数p,;总人数;累加发病率我们将B组数据中戒烟天数按时间用Excel进行重新排序并计算上
9、述234人中再次吸烟的累加发病率为=0.858974359。在计算年龄,性别,每日抽烟支数,CO浓度,调整的CO浓度的累加发病率分布时,我们坚持一个原则:当戒烟天数分别与年龄,性别,每日抽烟支数,CO浓度,调整的CO浓度一一对应存在时,我们才采纳这个数据,他们的柱状图如下:(1) 根据上述原则,我们采纳了234个数据。根据测试人群年龄,我们把年龄分成三段(单位:岁):青年19-39,中年39-59,老年59-79.在不同年龄段,三个年龄段得到的累加发病率分别为;=0.8888888889,=0.8557692308,=0.7272727273可见年龄越大,累加发病率越低,且老年(59,79)的
10、累加发病率较低。(2) 根据上述原则,我们采纳了234个数据。我们把性别分成两段:2男,1女. 在不同性别,得到的累加发病率分别为;=0.8709677419=0.8454545455,可见女性的累加发病率较高。(3) 根据上述原则,我们采纳了234个数据。我们把每日抽烟支数分成三段(单位:支):每日抽烟只数不太多(0,15),每日抽烟只数一般多15,30),每日抽烟只数很多30,+ ).在不同每日抽烟支数段,得到的累加发病率分别为;=0.8461538462,=0.8828828829,=0.8333333333可见每日抽烟只数在15,30)时的累加发病率最高,在(0,15)时的累加发病率次
11、之,在30,+ )时的累加发病率最低。(4) 根据上述原则,我们采纳了227个数据。我们把CO浓度分成三段:浓度不算太高(0,200),浓度不算一般高200,400),浓度较高400,+ ).在不同CO浓度段,得到的累加发病率分别为;=0.8414634146,=0.8636363636,=0.9142857143可见CO浓度越高,累加发病率越高,且浓度较高400,+ )的累加发病率特别高。(5) 根据上述原则,我们采纳了224个数据。我们把调整的CO浓度分成三段:浓度不算太高(500,1000),浓度不算一般高1000,1500),浓度较高1500,2000).在不同的调整的CO浓度段,得到
12、的累加发病率分别为;=0.7272727273,=0.8571428571,=0.8939393939可见调整的CO浓度越高,累加发病率越高,浓度不算太高(500,1000)的累加发病率相较低。总结分析:对于年龄,越年轻,累加发病率越低。对于性别,女性,累加发病率较高。对于每日抽烟支数,累加发病率的分布没有明显规律。对于CO浓度和调整的CO浓度,浓度越高,累加发病率越高。模型改进方向:由于累加发病率指已知人群,经过一段特定的观察期之后,发生某病的频率。分子是在某一特定观察期内发生的某病新病例数。分母是观察开始时的暴露人数。这是一个规定的概念,所以我们按要求对数据进行分段统计分析,无需再寻找其他
13、更好的模型。问题(2):变量假设:符号说明::年龄:每日抽烟支数:CO浓度 :调整的CO浓度建立模型:我们利用excel通过对已知数据的分析,分别计算出年龄,每日抽烟支数,CO浓度,调整的CO浓度与戒烟天数的相关系数,如下表所示: 0.0527833720.026584259-0.199920331-0.1369511091) 由表可知,年龄、每日抽烟支数,CO浓度调整的CO浓度会影响戒烟时间(天数)长短,据越接近1则相关性越大的原理,他们对戒烟天数的影响程度有大到小排序如下:CO浓度,调整的CO浓度,年龄,每日抽烟支数。2) 由r的符号可知,年龄,每日抽烟支数与戒烟天数是正相关的,CO浓度,
14、调整的CO浓度与与戒烟天数是负相关的。3) 为了更直观地体现不同因素对戒烟时间的影响程度,我们用excel绘制了戒烟时间与年龄、每日抽烟支数及调整的CO浓度等因素的散点图,具体如下CO浓度与戒烟天数的相关系数r=-0.199920331调整的CO浓度与戒烟天数的相关系数r=-0.136951109年龄与戒烟天数的相关系数r=0.052783372每日抽烟支数与戒烟天数的相关系数r=0.026584259根据散点图中各点分布走向和密集 程度,可以大致判断变量之间的共变关系,由四图可看出,各点的密集 程度是从大到小的,所以我们可以判断影响戒烟时间的因素由相关度从大到小排序是CO浓度,调整的CO浓度
15、,年龄,每日抽烟支数。4) 最后,我们利用excel分别计算不同分性别对应的戒烟天数的平均数,求得男性的戒烟天数的平均数为77.86363636,女性的戒烟天数的平均数为81.83064516。可见性别会影响戒烟天数,一般来说,男性的戒烟天数低于女性。总结分析:年龄、性别、每日抽烟支数及调整的CO浓度会影响戒烟时间(天数)长短。由强到弱按对戒烟时间影响的程度排序有:CO浓度,调整的CO浓度,年龄,性别,每日抽烟支数。模型改进方向:该模型仅给出不同因素与戒烟天数的相关系数,及性别这一因素的戒烟天数的平均数,并没直接给出不同因素与戒烟天数的具体函数(数量)关系,给出的分析结果较为模糊,如果能运用回
16、归分析中一元线性回归的方法,分别用回归方程准确地表示不同因素与戒烟天数的回归方程,或许会有更清晰的数据结果。问题(3)符号说明::年龄:每日抽烟支数:CO浓度:调整的CO浓度针对问题三,我们把戒烟天数作为判断戒烟成功的指标,于是,讨论影响戒烟成功的主要因素即转化为讨论影响戒烟天数的主要因素。由于因变量是戒烟天数,而自变量有多个(年龄、每日抽烟支数及调整的CO浓度等因素),所以我们首先讨论自变量到底选取哪几个。我们可以轻易判断,戒烟天数与距离抽最后一支烟的分钟数无关,所以仅考虑其他五个因素(年龄, CO浓度,调整的CO浓度,每日抽烟支数,性别)。我们运用多元线性回归的方法解决该题。我们在剔除了1
17、0个数据不完整的调查对象后,对剩下的224个调查对象用EXCEL进行线性回归分析,一共做了五个模型(自变量包括五个因素,自变量分别不包括性别,年龄, CO浓度,调整的CO浓度,每日抽烟支数的四个模型),发现性别的标准误差均较大,而标准误差越大,拟合程度越差,所以舍去该因素。因此,我们最终把年龄, CO浓度,调整的CO浓度,每日抽烟支数作为自变量。基于上述分析,用EXCEL进行回归分析,统计结果如下:回归统计Multiple R0.236065127R Square0.055726744Adjusted R Square0.038479744标准误差126.0181324观测值224方差分析df
18、SSMSFSignificance F回归分析4205246.695851311.673943.2310978080.0133224残差2193477844.76415880.5697总计2233683091.46Coefficients标准误差t StatP-valueLower 95%Upper 95%下限 95.0%上限 95.0%Intercept64.3915870685.107710860.7565893430.450109069-103.3433974232.1265715-103.3433974232.1265715Age0.1527726410.6878942460.2220
19、873950.824452817-1.2029673921.508512673-1.2029673921.508512673Cig_Day1.3170673180.7039837491.8708774450.062695761-0.0703827972.704517433-0.0703827972.704517433CO-0.264173270.102918036-2.5668316170.010929821-0.467009829-0.061336711-0.467009829-0.061336711LogCOadj0.0307947490.0684015020.450205750.6530
20、0743-0.1040147140.165604213-0.1040147140.165604213由上表可知,该模型的关系式为:Y=模型中各回归系数解释如下,当年龄每增加一岁,戒烟天数增加0.152773天;当每日抽烟支数每增加一支,戒烟天数增加1.317067天;当CO浓度每增加一个单位,戒烟天数减少0.26417天;当调整的CO浓度每增加一个单位,戒烟天数增加0.030795天。P-value为回归系数统计量的P值,CO浓度的P-value是0.010929821,远小于显著性水平0.05,因此该自变量与y相关。其他的自变量对应的P-value大于显著性水平0.05,说明这些项的自变量与
21、因变量不存在相关性,因此这些项的回归系数不显著。可见,影响戒烟成功的主要因素有CO浓度。模型的可靠性分析:由表格可知,回归统计中的标准误差较大,所以该关系式不太可靠。且方差分析中,残差较大,可见实际观察值与回归估计值的差还是较大。不过,Significance F(F显著性统计量)的P值为0.0133224,小于显著性水平0.05,所以说该回归方程回归效果显著。但四个因素(年龄,每日抽烟支数,CO浓度,调整的CO浓度)的标准误差较小。而我们要讨论的是,影响戒烟成功的主要因素,所以只要四个因素的标准误差较小就能帮助我们解答这个问题。所以尽管该模型不太理想,但依然能帮我们解决题目所问。综合上述,该
22、模型对于第三问的解答还是可靠的。模型的改进方向:由计算结果可知,该模型误差还是较大的,而逐步回归或许是更好的方法。由回归分析的知识可知,当回归方程的自变量较多时,总体误差将由每个自变量的区间误差积累得到,从而使结果可靠性降低。因此,若该模型能采取逐步回归的方法,根据自变量对因变量的影响程度来引入回归方程,将得到更合理准确的结果问题(4)对有志于戒烟的人士的诚挚建议 吸烟的害处很多,它不但危害吸咽者的健康,还会污染空气,危害他人。而一般人仅靠意志力戒烟难度真的很大,研究证明不借助任何外力(包括家人、医生、药物等)而能成功戒烟的烟民不到一成。基于此,我们运用数学建模的知识,对影响戒烟成功的因素进行
23、分析,得出对有志于戒烟的人士的诚挚建议。 结合三个问题的结论,我们可以得知,影响戒烟成功的因素主要有CO浓度,年龄,每日抽烟支数。而且,CO浓度越高,累加发病率越高,戒烟天数越少;年纪越大,累加发病率越低,戒烟天数越多。客观地说,由于吸烟的支数越少,摄入体内的CO浓度将越低,所以CO浓度归根是受每日抽烟支数影响;而人的压力通常随年龄递增而减少(指19岁即踏入青年后),所以需要用来减压的抽烟支数也相应减少,即年龄终究能反映抽烟支数。 综上,我们认为戒烟成功因素终究受每日抽烟支数影响,所以,我们建议有志于戒烟的人士从减少每日抽烟支数做起,规定自己某个时期内每天抽烟支数不超过一个额度,且这个额度随着
24、时间推移减少。例如,烟瘾不算太大的烟民,规定自己在戒烟的第一个星期内,每天抽烟支数不超过8支,在第二个星期内,每天抽烟支数不超过6支,以此类推,逐步摆脱烟瘾。规定的额度因人而异,不过,一旦作出规定,就要严格执行。 压力对每个年龄段的人来说都不可避免,而如何减压就成了至关重要的问题。烟草中含有的尼古丁等化学成分能对人体起作用,从而使吸烟者产生暂时的快感,因而广泛受到“亚历山大”人士的欢迎。可是,这种减压方式不仅于事无补,还害人害己。那么,正确健康的减压方式就应该得到大家的关注。多听舒缓的音乐来缓解心情,多看好书来拓宽胸怀,多和家人朋友相聚,这些健康的减压方式才是各位明智的选择。 健康是人一辈子的
25、财富,而烟正是掠夺人类健康的凶手。要想拥有幸福美满的生活,戒烟就事不宜迟了!模型评价与改进1) 通过利用Excel数据处理,对给出的数据进行分析,对影响戒烟成功因素的筛选提供了有价值的参考,即建立了如下模型:, ,= ,以及Y=2) 解决问题一时,我们对已知数据进行合理分段,再统计累加发病率,并作出相应柱状图,从而简单直接地呈现不同因素下的累加发病率分布情况。3) 解决问题二时,我们根据不同因素的数据特征,分别建立了两个模型来讨论,从而在不同因素对戒烟时间的影响程度的问题上给出定量分析结果,并给出散点图来更直观地呼应我们的分析结果。4) 在问题三中,我们采取多元线性回归函数的方法。为了确定自变
26、量个数,做了五个模型,最后比较分析得出一个模型(自变量含年龄,CO浓度,调整的CO浓度,每日抽烟支数),并用回归方程表达运算结果。但误差还是较大,如果选用回归分析,结果可能会更加精确。5) 整个数学建模题目的解决中,我们图文并茂,数形结合,并对不同情况进行分析筛选,对运算结果进行验证分析,得到较全面的分析结构。不过,若能在数据分析时运用MATLAB等数学软件会更好。参考文献1 刘剑平,陆元鸿,概率论与数理统计方法,华东理工大学出版社,2003年。2 费浦生等,数学建模及其基础知识讲解,武汉大学, 2007年。3 梁国业,廖建平 数学建模,冶金工业出版社,2004年。参考网站附录下列为问题三中,
27、自变量不同时,运用EXCEl进行回归分析时的计算结果。1. 自变量为年龄,性别,每日抽烟支数,CO浓度,调整的CO浓度时的计算结果回归统计Multiple R0.237419R Square0.056368Adjusted R Square0.034725标准误差126.264观测值224方差分析dfSSMSFSignificance F回归分析5207607.841521.562.6044430.025998195残差218347548415942.59总计2233683091Coefficients标准误差t StatP-valueLower 95%Upper 95%下限95.0%上限 9
28、5.0%Intercept79.1910893.544110.8465640.398166-105.1755187263.55769-105.175519263.5577Gender0.0936860.706130.1326750.894573-1.2980296881.4854018-1.298029691.485402Cig_Day-6.6835717.36719-0.384840.700732-40.9126640527.545527-40.91266427.54553CO1.3220840.7054771.8740270.062264-0.0683456642.7125131-0.06
29、8345662.712513LogCOadj-0.264010.10312-2.560220.011137-0.467248697-0.06077-0.4672487-0.060772. 自变量为性别,每日抽烟支数,CO浓度,调整的CO浓度(无年龄)时的计算结果回归统计Multiple R0.237259R Square0.056292Adjusted R Square0.039055标准误差125.9804观测值224方差分析dfSSMSFSignificance F回归分析4207327.251831.793.2658030.012586123残差219347576415871.07总计2
30、233683091Coefficients标准误差t StatP-valueLower 95%Upper 95%下限95.0%上限 95.0%Intercept84.87930582.954071.0232080.307338-78.6111634248.3697734-78.611163248.36977Gender0.6961.9196280.056204-0.035654282.707777203-0.03565432.707777226.149725Cig_Day0.102886-2.56520.01098-0.46669741-0.06115017-0.4666974-0.06115
31、CO0.0681240.4147750.678713-0.106005950.162517974-0.1060060.162518LogCOadj0.0282560.0681240.4147750.678713-0.106005950.162517974-0.1060060.1625183. 自变量为年龄,性别,CO浓度,调整的CO浓度(无每日抽烟支数)时的计算结果回归统计Multiple R0.202894R Square0.041166Adjusted R Square0.023653标准误差126.986观测值224方差分析dfSSMSFSignificance F回归分析4151617
32、.837904.452.3505980.055192142残差219353147416125.45总计2233683091Coefficients标准误差t StatP-valueLower 95%Upper 95%下限95.0%上限 95.0%Intercept86.84993.989260.9240310.356487-98.39022806272.0882-98.3902272.0882Gender0.2913030.7022050.4148410.678664-1.0926408561.675247-1.092641.675247Cig_Day-6.0822117.46353-0.34
33、8280.727964-40.500298128.33588-40.500328.33588CO-0.222040.101234-2.193310.029337-0.421553688-0.02252-0.42155-0.02252LogCOadj0.0335430.0690110.4860460.627421-0.1024688290.169554-0.102470.1695544. 自变量为年龄,性别,每日抽烟支数,调整的CO浓度(无CO浓度)时的计算结果回归统计Multiple R0.167317R Square0.027995Adjusted R Square0.010241标准误差1
34、27.8552观测值224方差分析dfSSMSFSignificance F回归分析4103108.125777.031.576870.181472残差219357998316346.96总计2233683091Coefficients标准误差t StatP-valueLower 95%Upper 95%下限95.0%上限 95.0%Intercept209.850779.384362.6434760.00879953.39558366.305853.39558366.3058Gender0.0823520.7150150.1151750.908412-1.326841.491543-1.32
35、6841.491543Cig_Day-6.8669917.58592-0.390480.696559-41.526327.7923-41.526327.7923CO0.929790.6973151.3333860.183791-0.444522.304097-0.444522.304097LogCOadj-0.105190.044808-2.347470.019793-0.1935-0.01688-0.1935-0.016885. 自变量为年龄,性别,每日抽烟支数, CO浓度(无调整的CO浓度)时的计算结果回归统计Multiple R0.235763R Square0.055584Adjust
36、ed R Square0.038335标准误差126.0276观测值224方差分析dfSSMSFSignificance F回归分析4204721.451180.343.2223410.013515残差219347837015882.97总计2233683091Coefficients标准误差t StatP-valueLower 95%Upper 95%下限95.0%上限 95.0%Intercept113.139348.745822.3210050.02120617.06833209.210217.06833209.2102Gender0.0620820.7008990.0885750.929501-1.319291.443452-1.319291.443452Cig_Day-7.1256317.30365-0.41180.680889-41.228626.97736-41.228626.97736CO1.3321820.7037591.8929540.059683-0.054822.719189-0.054822.719189LogCOadj-0.230460.066337-3.474080.000618-0.3612-0.09972-0.3612-0.09972