《2006年全国大学生数学建模竞赛B题.ppt》由会员分享,可在线阅读,更多相关《2006年全国大学生数学建模竞赛B题.ppt(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、艾滋病疗法的评价 及疗效的预测,全国大学生数学建模竞赛 2006年B题,艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。 艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”, 英文简称HIV)引起的。这种病毒破坏人的免疫系统,使人体丧失抵抗各种疾病的能力,从而严重危害人的生命。人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。 艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的
2、CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。,迄今为止人类还没有找到能根治AIDS的疗法,目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。 现在得到了美国艾滋病医疗试验机构ACTG公布的两组数据。 ACTG320(见附件1)是同时服用zid., lam., ind. 3种药物的300多名病人每隔几周测试的CD4和HIV的浓度(每毫升血液里的数量)。193A(见附件2)是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度(这组数据缺HIV浓度,它的测试成本很高)。4种疗
3、法的日用药分别为:600mg zid.或400mg did.,这两种药按月轮换使用;600 mg zid.加2.25 mg zal.;600 mg zid.加400 mg did.;600 mg zid.加400 mg did.,再加400 mg nev.。,请你完成以下问题: (1)利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间(继续治疗指在测试终止后继续服药,如果认为继续服药效果不好,则可选择提前终止治疗)。 (2)利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。 (3) 艾滋病药品的主要供给商对不发达国
4、家提供的药品价格如下:600mg zid. 1.60美元,400mg did. 0.85美元,2.25 mg zal. 1.85美元,400 mg nev. 1.20美元。如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变。,附件1 ACTG320数据 同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。 第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的HIV(单位不详)。 PtIDCD4Date CD4Count RNADateVLoad 23424 01
5、780 5.5 23424 42284 3.9 23424 81268 4.7 23424 25171 25 4 23424 40 99 40 5 23425 0 140 5.3 23425 4 624 2.4 23425 91109 3.7 23425 23122 23 2.6 23425 40320,附件2 193A数据 1300多名病人按照4种疗法服药大约每隔8周测试的CD4浓度。 第1列是病人编号,第2列是4种疗法的代码: 第3列是病人年龄,第4列是测试CD4的时刻(周),第5列是测得的CD4,取值log(CD4+1). ID 疗法 年龄 时间 Log(CD4 count+1) 123
6、6.427103.1355 1236.42717.57143.0445 1236.427115.57142.7726 1236.427123.57142.8332 1236.427132.57143.2189 1236.427140 3.0445 2447.84670 3.0681 2447.84678 3.8918 2447.846716 3.9703 2447.846723 3.6109 2447.846730.71433.3322 2447.846739 3.0910,CD4大致有先增后减的趋势,HIV有先减后增的趋势,启示应建立时间的二次函数模型,问题(1) 利用附件1的数据,预测继续
7、治疗的效果, 或者确定最佳治疗终止时间。,分析数据,如随机取20个病人,画出他们CD4和HIV浓度随时间变化的图形(折线),,若先用一次模型,应与二次模型做统计分析比较,CD4,HIV,1) 总体回归模型 用全部数据拟合一个模型,如 yij=b0+b1tij+b2tij2,tij,yij分别为第i病人第j次测量的时间和CD4(或HIV),估计b0, b1, b2,建立模型,有以下形式的回归模型(一次与二次模型比较,二次较优):,对HIV,b20, b10, t=-b1/2b2 达到最小,对CD4,b20, t=-b1/2b2 达到最大,平均地应在2530(周)结束治疗。,可对CD4统计b2i0
8、(存在正最大点)及b2i0(不存在最大点)的频率,分别作为及时结束治疗与继续治疗的概率;也可用它们的均值和均方差在确定分布下计算这些概率。,2) 个人回归模型,用每个病人的数据拟合一个模型,如yij=b0i+b1itij+b2itij2,计算b0i ,b1i ,b2i的均值和均方差,用均值可得CD4的最大点和HIV的最小点。,将模型 yij=b0i+b1itij+b2itij2 的系数分解: bki=bk+ik(k=0,1,2),设ik服从零均值正态分布,利用极大似然估计可以得到bk的估计值及ik的方差。,3) 纵向数据回归模型,bk的估计值用于计算CD4的最大点和HIV的最小点,它与ik的方
9、差一起可以在正态分布假定下计算及时结束治疗与继续治疗的概率。,如果考虑病人初始状态(t=0时的CD4和HIV)的不同对模型的影响,可以将模型中的yij定义为第i病人第j次测量的CD4(或HIV)与初始值之差或之比。,或者先按照病人初始状态分类(如轻度、中度、重度),然后对于每一类建立回归模型。,建立模型,问题(2) 利用附件2的数据,评价4种疗法的优劣,并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。,对于每种疗法随机取20个病人,画出他们CD4随时间变化的图形(折线),可以看出疗法13的CD4基本上水平,略有下降,而疗法4有先增后减的趋势。启示应建立时间的一次与二次函数模型,经统
10、计分析比较,确定哪种较优。,分析数据,可以引入4(或3)个0-1变量表示4种疗法建立统一模型,或者对每种疗法各建立一个模型(一般来说前者较优)。,1)回归模型,以总体回归模型为例,只需增加年龄变量,分别用一次与二次时间函数模型进行比较,可知疗法13用一次模型较优,且一次项系数为负,即CD4在减少,从数值看疗法3优于疗法2和1;疗法4用二次模型较优,即CD4先增后减,,建立模型,做疗法有无显著性差异的两两比较: 用1个0-1变量构造两种疗法的统一模型,可以用t检验作回归系数是否为零的假设检验。结果是疗法1与2无显著性差异,而疗法1与3,2与3,3与4均有显著性差异。,2)假设检验,疗法是必选的因
11、素,如果还考虑年龄和初始状态,用双因素分析则比较复杂,可以先按这些因素分类,再做疗法的单因素分析。,3)方差分析,论文中出现问题的评析,1只做数据拟合,不做统计检验。,用回归分析方法做统计检验: 得到的模型有无显著意义,它的置信度多大,用它作预测时准确程度如何。,最小二乘拟合: 已知一组数据(xk,yk), k=1,2,n 和一个形式已定、参数待定的模型(曲线)y=f(x, ), 确定参数使数据与模型在误差平方和最小的意义下拟合得最好。,有现成的计算公式和软件确定参数,y=a1x+b1=0.2013x+1.0040,z=a2x+b2=0.2025x+1.0025,两个模型的结果一样,但是可靠性
12、和准确性一样吗?,需要做统计检验!,简例,最小二乘拟合,R2=0.3528在z的变化中只有35%是由x决定的,p值大于0.05在常用的置信度=5%下该模型没有显著意义,a2的置信区间包含零点a=0落在置信水平为95%的区间内,若x=5.5,预测区间 y:2.0621,2.1606 ,z:0.3899,3.8432,,预测值 y=2.1113, z=2.1165,回归分析结果,z的预测没有什么价值!,2对原始数据先取平均,再用平均值做拟合,数据中大多数病人的测试时间是0,4,8,(周),个别病人是5,7, (周),为了得到CD4(或HIV)的变化趋势,先在每个时间点上对CD4取平均,再用平均值做
13、拟合,这样做有什么问题呢?,注意:有的时间点上有上百个病人的CD4,而有的时间点上只有几个病人的CD4。,数据(x,y):x=0, y=0:0.05:2; x=1,y=1:0.05:3; x=2,y=0,2, 在图上共84个点。,简例,对数据(x,y)拟合一条直线,得y=0.7647x+1.0784,先在x=0,1,2对y取平均得到3个点, 再拟合直线,得y=1.3333,取平均后的3个点在做拟合时的权重相同; 但是x=0,1的点都是41个数据的平均值, 而x=3的点只是2个数据的平均值,3拟合过度,用4次、5次甚至更高次数的多项式作拟合,数据的起伏是由与时间本身无关的其它随机因素引起的,不应
14、该用增加时间的高次项来拟合,注意拟合与插值在应用场合的差别,一般地说,多项式拟合不要超过3次,对于本题如果用统计检验做显著性分析,可以发现多数情况是以时间的2次多项式为好,适用本题的显然是拟合而非插值,4只按照图形做直观的定性判断,不做定量分析,为了比较4种疗法的优劣,对每种疗法的CD4(或取平均)做散点图, 或折线(散点连线)图, 直观地比较疗法的优劣,没有普遍的指导意义,对于其它问题或数据,这样做不一定能得到结果,一种疗法的CD4散点图(或折线图)在另一种疗法的上面, 从统计意义上并不能表明其显著性,作为数学建模题目应该给出定量的处理方法!,5双指标处理不当,对于CD4和HIV两个指标的处理,常用的方法是用某种函数形式将二者结合在一起.,由于CD4越大越好,HIV越小越好,一些同学取二者之差或二者之商为综合指标 .,这样简单处理的问题在于,这两个指标量纲不同,数量级差别较大.,恰当的办法是,先分别将其归一化(如将数值变换到0-1之间),然后取加权平均 .,微分方程,层次分析,6. 对其它建模方法的评价,灰色系统预测,模糊评价,时间序列,神经网络,