《第五组肾炎诊断论文.docx》由会员分享,可在线阅读,更多相关《第五组肾炎诊断论文.docx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、肾炎的诊断摘要本题主要讨论肾炎的诊断,是个判断识别问题。通过化验就诊人员体内的各种元素含量来确诊就诊人员是否患肾炎,这就需要我们给出一个指标来协助医生的诊断。人体内有多种微量元素,由于题目的表格中给出Zn、Cu、Fe、Ca、Mg、K 、Na七种元素的化验结果,我们运用判别方法,选择患病人和健康人体内各元素作为分析对象建立判别模型,来协助医生诊断是否健康与其七种元素对总体影响,并尝试确定关键因素来更好诊断。针对问题1:我们通过对表B.1中的数据进行简单Excel分析,发现130号确诊为患肾炎和3160号确诊健康人体内各元素的含量的期望、方差等值相差很大,而且所考虑的元素比较多,很难给出一个标准的
2、指标来衡量一个人的健康情况。同时我们想到距离判别法和费希尔判别法很适合本题的条件,通过MATLAB求解对表B.1是确诊病例的化验结果验证,得到距离判别法的准确率为88.46%,费歇尔判别法的准确率为93.75%。所以我们认为费希尔判别法更具有可行性。针对问题2:我们采用问题1中所得到的最优判别法费歇尔判别法,运用MATLAB处理表B.1中的数据,对30名就诊人员的化验结果进行判别,从而确诊就诊人员的健康情况。结果有15人患病,15人健康。针对问题3:此问是建立在问题1基础上,由于同时分析7种元素还是比较繁琐,需要在不太大影响效果进一步减少元素的个数。根据表格给出的信息,我们可以通过主成分分析,
3、用MATLAB进行计算,最后得到主要因素:Cu、Ca、Mg、Na。并用费歇尔判别法对B.1中化验结果验证,准确率为91.67%。针对问题4:在问题三的简化后,重新建立费歇尔判别函数。再重复二的过程,检验B.2中就诊人员的健康状况。结果有17人患病,13人健康。针对问题5:通过对问题2和问题4的结果的分析,我们可以发现检验的结果相差很小,说明问题3中的关键因素的选择是合理的。这就可以在一定误差范围内,用关键因素来取代全部的因素作为肾病的检测指标,从而减少变量和工作量,很有实际意义。最后我们在考虑判别法的误差,于是通过两类判别法的综合运用来减少,并考虑样本数据可能存在问题时的办法。关键词:距离判别
4、法 费歇尔判别法 主成分分析 元素含量1问题重述人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1(见附录)是确诊病例的化验结果,其中130号病例是已经确诊为肾炎病人的化验结果;3160号病例是已经确诊为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:1. 根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验你提出方法的正确性。2. 按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。3. 能否根据表B.1的数据特征,确定哪些指标是影
5、响人们患肾炎的关键或主要因素,以便减少化验的指标。4. 根据3的结果,重复2的工作。5. 对2和4的结果作进一步的分析。2.模型假设与符号说明2.1模型假设假设1:表格中所给的数据全部正确;假设2:元素对人体的影响是相对独立,而不考虑元素之间的影响;假设3:7种元素足够来检验是否患病,与其他的元素无关。假设4:表中的人如果患病就是肾病,否则健康,没有其他疾病干扰。2.2符号说明:样本指标数;:第个样本,=1、2;:距离判别法的判别函数;:第个样本的均值,=1、2;:患病的指标即元素,=17;:费歇尔判别法的判别函数;:费歇尔判别法的判别函数临界值;:第个样本的协方差矩阵,=1、2;:费歇尔判别
6、法的判别函数的系数,=17.3.模型的问题分析本题主要为医生提供一个指标来协助医生通过对就诊人员化验出的体内各元素的含量来确诊就诊人员是否患肾炎,因此是一个判断识别模型。我们根据表B.1中的数据的130号确诊为患肾炎和3160号确诊为健康的人体内各元素含量的期望和方差的值进行比对,两者的差距还是很大,而且Zn、Cu、Fe、Ca、Mg、K 、Na这七种元素并没有统一的指标,差异各不相同。3.1问题1分析:根据表B.1中的数据,提出一种或多种简便的判别方法,判别属于患者或健康人的方法,并检验我们提出方法的正确性。首先我们用Excel表格对B.1中的数据进行了一些处理,发现130号确诊为患肾炎和31
7、60号确诊为健康的人体内各元素的含量的期望、方差、中位数、峰度等都有很大的偏差,并且我们很难用统一的指标对所有元素进行衡量来确定人的健康状况,且每一个人含有的各元素也不近相同。对每个元素分析发现Ca、Mg的含量在患者和健康人中差别很大,而其他元素的差别较小。根据一般的判别问题的方法,首先把患病和健康分为两组,若检验值落在哪一组我们就可以认为它属于这个组,但是还需一个测评指标,如果测评指标为距离,则可以用距离判别法,如果是一个观察临界值,则是费歇尔判别法。同时我们也了解到费希尔判别参与构造函数的判别函数的样品不宜太少,否则用于判别的分类特性的信息太少,影响判别函数的优良性;所以我们在选取样本时也
8、要考虑样本数。由于两类判别函数都要求两样本的平均值之间的差异显著。所以我们还需要对数据进行显著性检验。3.2问题2分析:按照1提出的方法,判断表B.2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是健康人。我们在问题1选择的费希尔判别法的基础上,对表B.2中的30名就诊人员的化验结果进行一一判别,将每一个人的七种元素含量以矩阵的形式输入MATLAB中,输出的结果将反映人的健康情况。3.3问题3分析:能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标。查找资料后发现此问可采用主成分分析方法,其是一种建立在对测量参数相关性分析基础上的统计
9、相关分析技术。由于研究涉与的众多指标之间往往具有一定的相关性,且存在起支配作用的因素,因此可以通过主成分分析对表B.1中的原始数据指标相关矩阵内部结构进行研究,找出影响判别结果的几个互不相关的综合元素指标,使综合元素指标为原来指标的线性组合,且保留原始元素指标的主要信息,用综合指标替代原来的指标,从而使我们问题研究得以简化。3.4问题4分析:这是在问题3找到关键元素后重新建立的判别函数后的检验工作。与问题2相比只是判别函数不同,因此可以使用问题2的方法用MATLAB处理即可得到所需的结果。3.5问题5分析:此问是比较问题2与问题4的结果,实际上是检验关键因素对判别的影响。一般来说,问题2和问题
10、4的结果相差不大,否则就是关键因素判断有误。若是结果相差很小,则可认为关键因素对判断结果有巨大贡献,则可以排除其他因素,而直接用关键因素来模拟整体。这在实际生活中有很多的积极意义,减少工作量和观察指标,使人更好的分析问题。4.模型的建立与求解4.1模型准备 首先对数据进行处理,分别求出患病的化验结果和健康的化验结果各元素的均值和标准差,并对两组进行成对双样本t检验。由,其中、分别为两组样本各元素差值的均值和标准差,显著度=0.05。经过Excel处理后得到如下表格:患病与健康数据显著性处理() 病号元素1303160T值P显著性Zn143.153.68186.629.683.760.0005非
11、常显著Cu12.335.0521.9223.752.140.04显著Fe23.0613.7562.0175.782.270.01非常显著Ca698.17270.192511.131271.67.432.8E-08非常显著Mg113.3946.85295.1451.325.289.4E-06非常显著K201.13259.7890.3751.32-2.1960.036显著Na526.83300.58367.21244.24-2.10.04显著从表可知Ca、Mg的P值几乎为零,极其显著,可认为它们对总体的影响很大,其他元素的影响稍微较小。由于两组元素的各指标之间的差距是显著的,所以我们使用的判别法是
12、有意义的。4.2.1模型1的建立, 根据我们的分析,从样本中选取患病和健康分为、两个样本,其对应均值和方差为:= = =一、距离判别法 X为检测样本,其到、样本的距离记为、,根据距离近就属于谁的原则。可列出如下的关系式:由于、是一个样本,到其距离用常用的距离表示是无法做到,所以需要用到马氏距离:=。根据上述原则,有=-我们令=;则上述距离判别准则可表达为,目标函数为. 二、费歇尔判别法从、两个样体中选取个指标的样品观测数据,借助于方差分析的思想构造一个判别函数:其中,系数确定的原则是使两组间的区别最大,而使每个组内部的离差最小。有了判别函数后,对于一个新的样品,将它的指标值代入判别函数求出值,
13、然后与判别临界值进行比较,就可以判别它应属于哪一个总体。假设从两个总体中分别抽取个样品,每个样品观测个指标,得到观察值。将属于不同总体的样品观测值代入判别函数,则得 对以上两组等式分别左右相加,再除以相应的样品个数,则有 称作第一组样品的“重心” 称作第二组样品的“重心”为了使判别函数能很好地区别来自不同总体的样本,自然希望:(1)来自于不同总体的两个平均值、相差越大越好;(2)对于来自于第一个总体的,它们的离差平方和越小越好,同样越小越好。综合以上两点,就是要求 利用微积分求极值的必要条件,求可使达到最大值的.结果如下:其中,有了判别函数之后,欲建立判别准则还要确定判别临界值,在、先验概率相
14、等的假设下,一般常取为与的加权平均值如果由原始数据求得,满足,则.建立判别准则为:对于新样品代入判别函数中所得值记为。则判别准则为 .如果0.85.所以选4个主成分即可满足要求,于是选择特征向量的前4列。指标主成分占方差百分数 0.04320.22400.1093-0.455313.060.16370.75580.16340.273832.540.0856-0.1017-0.14800.169914.260.5355-0.4408-0.34530.334842.65-0.7766-0.25830.09780.170444.390.16210.1898-0.64650.355120.050.21
15、90-0.26700.6266-0.108224.67 由上表可得到、是重要的指标,对总体影响很大。即我们得到Cu、Ca、Mg、Na是关键因素,这与我们的显著性分析的结果一致。4.5.1问题4模型的建立:根据问题3得到的结果,我们直接采用问题3中的模型主成分分析和费歇尔判别法来解决此题。4.5.2问题4模型的求解:采用问题3的模型主成分分析和费歇尔判别法,并运用MATLAB求解得到如下表格:病例号Fisher判别结果与=0.0728比较验证结果610.0079小于健康620.0486小于健康630.0898大于患病64-0.0024小于健康650.0403小于健康660.0754大于患病670
16、.1584大于患病680.0731大于患病690.0337小于健康700.1583大于患病710.0284小于健康720.0037小于健康730.0185小于健康740.1161大于患病750.0672小于健康760.0262小于健康770.0890大于患病780.0747大于患病790.0355小于健康800.1519大于患病810.1864大于患病820.1451大于患病83-0.0087小于健康840.1155大于患病850.0194小于健康860.1469大于患病870.0752大于患病880.1782大于患病890.3162大于患病900.0962大于患病根据上面表格可以得到在B.2
17、中30个化验结果中有17个患病,13个健康。4.6.1问题5模型的建立:我们在问题2中运用费歇尔判别法对B.2中30个化验结果进行判别,结果是15个患病,15个正常。在问题4中我们采取主成分分析、费歇尔判别法相结合进行判别,结果是17个患病,13个健康。通过观察我们发现两种结果相差不大,而且在问题4中我们的工作量减少了很多,主要是我们采用主成分分析法的,运用这种方法找出影响判别结果的几个互不相关的综合元素指标,用综合指标来代替原来的指标,从而使我们的问题研究简化。4.6.2问题5模型的求解:通过问题2和问题4判别结果的分析,我们发现两个的判别结果相差很小,并没有发现有什么优越之处。可是在问题4
18、的求解过程给出了四种主成分元素Cu、Ca、Mg、Na,即对于我们判别就诊人员的健康状况的主要化验元素。而不用考虑其他3种对于综合指标影响很小的元素,从而大大减少了医生在检查的麻烦,提高了检查的效率,而且在计算和计算机运行时都提高了效率。因此我们认为,采用主成分分析方法,为原始指标排除一些对综合指标影响很小的指标,来简化并优化我们的综合指标,不仅可以为医生减少化验的元素的种类从而减少工作量,而且我们还可以为就诊病人提供一个更好的方案来预防或治疗肾炎。5.模型的拓展与应用我们使用费歇尔判别法来回代检验的正确率为93.75%,依然有一些误判,这可以通过距离判别法来进行第二次判断,就问题1,在回代检验
19、中费希尔判别法有3人误判,在通过距离判别法做第二次判断发现,可以矫正一些误判,从而使正确率达到99%以上。所以,费歇尔判别法与距离判别法的综合指标来作为判别的方法。其次我们需要对费歇尔判别法和距离判别法进行判别效果检验,若通过检验则说明其效果明显。否则说明所使用的数据所提供的信息太杂或两个总体的平均值的差异不够显著等。在问题三进行主成分分析可以结合其他的分析方法来提高其可信度,如因子分析法和聚类分析都可辅助。用综合指标替代原来的指标,从而使我们问题研究更加简化。此模型可以应用到天气预报、昆虫分类、类风湿性关节炎中医证诊断等问题中。6.模型的改进与评价6.1模型的改进:可以在模型建立前对数据进行
20、筛选,剔除一些偏离总体样本较远的数据,排除偶然的因素。6.2模型的评价:模型的优点:1.在问题1中我们选择了距离判别法和费希尔判别法来解决问题,使问题变得简单容易理解,且比较两个模型的可行性,选择了最优的方法解决;2.采用主成分分析法,为医生的化验过程减少了对Zn、Fe、K这3中元素的化验,只需要对Cu 、Ca、Mg、Na进行检验,使医生在化验时减少工作量;模型的缺点:1.运用费希尔判别法可能会陷入局部最优结果,对数据要求比较苛刻,如正态性、独立性等。且对于类别数目太多的判别问题,采用逐级判别比较麻烦、累赘。模型的推广受到局限。2.默认两个总体的方差相同,存在误差。7.参考文献1数学建模竞赛教
21、程,李尚志主编,江苏教育出版社,(2000);2 数学建模与仿真,周品、赵新芳编著,国防工业出版社,(2009);3数学模型与其应用,戴明强、李卫军、杨鹏飞主编,科学出版社,(2006);4概率论与数理统计,盛骤、谢式千、潘承毅编,高等教育出版社,(2001);5 数学建模,袁震东、洪渊、林武忠、蒋鲁敏编著,华东师范大学出版社,(1995).附录:表B.1 确诊病例的化验结果病例号ZnCuFeCaMgKNa116615.824.5700112179513218515.731.570112518442731939.8025.9541163128642415914.239.789699.22397
22、26522616.223.860615270.321861719.299.2930718745.5257720113.326.655110149.4141814714.530.065910215468091728.857.8655175.798.43181015611.532.56391071035521113215.917.757892.4131413721218211.311.3767111264672131869.2637.195823373.0347141628.2327.162510862.4465151506.6321.06271401796391615910.711.761219
23、098.53901711716.17.0498895.51365721818110.14.0414371841015421914620.723.8123212815010922042.310.39.7062993.74398882128.212.453.137044.14548522215413.853.36211051607232317912.217.9113915045.22182413.53.3616.813532.651.6182251755.8424.980712355.61262611315.847.362653.61686272750.511.66.3060858.958.913
24、92878.614.69.7042170.81334642990.03.278.1762252.37708523017828.832.499211270.21693121319.136.2222024940.01683217013.929.8128522647.93303316213.219.8152116636.21333420313.090.8154416298.903943516713.114.1227821246.31343616412.918.6299319736.394.53716715.027.0205626064.62373815814.437.0102510144.672.5
25、3913322.831.016334011808994015613532267471090228810411698.00308106899.153.02894224717.38.65255424177.9373431668.1062.81233252134649442096.4386.9215728874.0219451826.4961.738704321433674623515.623.4180616668.81884717319.117.0249729565.82874815119.764.220314031828744919165.435.053613921376885022324.48
26、6.0360335397.74795122120.115531723681507395221725.028.223433731104945316422.235.52212281153549541738.9936.016242161032575520218.617.7378522531.067.35618217.324.8307324650.71095721124.017.0383642873.53515824621.593.2211235471.71955916416.138.0213515264.32406017921.035.0156022647.9330表B.2 就诊人员的化验结果病例号
27、ZnCuFeCaMgKNa6158.25.4229.7323138179513621061.8740.5542177184427631520.8012.513321761286466485.51.703.9950362.3238762.6651440.7015.154779.771.0218.56685.71.094.279017045.8257.9671440.309.1141755249.5141.5681704.169.32943260155680.8691760.5727.331813399.4318.8701927.0632.91969343103553711888.2822.612
28、0823113141372721535.8734.8328163264672.5731432.8415.726512373.0347.57421319.136.2222024962.0465.87519220.123.8160615640.01687617110.530.567214547.0330.57716213.219.8152116636.21337820313.090.8154416298.9394.57916420.128.9106216147.3134.58016713.114.1227821236.596.58116412.918.6299319765.5237.8821671
29、5.027.0205626044.872.08315814.437.01025101180899.58413322.831.31633401228289851698.030.8106899.153.08178624717.38.65255424177.5373.5871853.9031.31211190134649.8882096.4386.9215728874.0219.8891826.4961.73870432143367.59023515.623.4180616668.9188问题1程序距离判别法%模型求解w的表达式u1=mean(a1(:,1:30),2);u2=mean(a2(:,1:30),2);s1=zeros(7);s2=zeros(7);for n=1:30 s1=