数学建模题目及其答案(疾病的诊断)(共22页).doc-淘文阁

资源描述

《数学建模题目及其答案(疾病的诊断)(共22页).doc》由会员分享，可在线阅读，更多相关《数学建模题目及其答案(疾病的诊断)(共22页).doc（22页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上数学建模疾病的诊断现要你给出疾病诊断的一种方法。胃癌患者容易被误诊为萎缩性胃炎患者或非胃病者。从胃癌患者中抽取5人（编号为1-5），从萎缩性胃炎患者中抽取5人（编号为6-10），以及非胃病者中抽取5人（编号为11-15），每人化验4项生化指标：血清铜蓝蛋白（）、蓝色反应（）、尿吲哚乙酸（）、中性硫化物（）、测得数据如表1所示：表1. 从人体中化验出的生化指标No.123456789102282452001701002551301501201601341341671501671251001171331000.20.10.120.070.200.070.060.

2、070.10.050.110.40.270.080.140.140.120.060.260.1011121314151851701651351001151251421081170.050.060.050.020.070.190.040.080.120.02根据数据，试给出鉴别胃病的方法。论文题目：胃病的诊断摘要在临床医学中，诊断试验是一种诊断疾病的重要方法。好的诊断试验方法将对临床诊断的正确性和疾病的治疗效果起重要影响。因此，对于不同疾病不断发现新的诊断试验方法是医学进步的重要标志。传统的诊断试验方法有生化检测、DNA检测和影像检测等方法。而本文则通过利用多元统计分析中的判别分析及SPSS软

3、件的辅助较好地解决了临床医学中胃病鉴别的问题。在临床医学上，既提高了临床诊断的正确性，又对疾病的治疗效果起了重要效果，同时也减轻了病人的负担。判别分析是在分类确定的条件下，根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。其基本原理是按照一定的判别准则，建立一个或多个判别函数，用研究对象的大量资料确定判别函数中的待定系数，并计算判别指标。首先，由判别分析定义可知，只有当多个总体的特征具有显著的差异时，进行判别分析才有意义，且总体间差异越大，才会使误判率越小。因此在进行判别分析时，有必要对总体多元变量的均值进行是否不等的显著性检验。其次，利用判别分析中的费歇判别和贝叶

4、斯判别进行判别函数的建立。最后，利用所建立的判别函数进行回判并测得其误判率，以及对其修正。本文利用SPSS软件实现了对总体间给类变量的均值是否不等的显著性检验并根据样本建立了相应的费歇判别函数和贝叶斯判别函数，最后进行了回判并测得了误判率，从而获得了在临床诊断中模型，给临床上的诊断试验提供了新方法和新建议。关键词：判别分析；判别函数；Fisher判别；Bayes判别一问题的提出在传统的胃病诊断中，胃癌患者容易被误诊为萎缩性胃炎患者或非胃病患者，为了提高医学上诊断的准确性，也为了减少因误诊而造成的病人死亡率，必须要找出一种最准确最有效的诊断方法。为诊断疾病，必须从人体中提取4项生化指标进行化

5、验，即血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、中性硫化物。但是，从人体中化验出的生化指标，必须要确定一个精准的指标来判断疾病所属的类型。设想，使用判别分析法，利用SPSS软件对各个变量进行系统的分析，使该问题得到有效地解决。二、问题的分析由题意可知，目的就是为了建立一种模型，解决医学上的这种误诊问题。在该问题中，必须确定血清铜蓝蛋白、蓝色反应、尿吲哚乙酸、中性硫化物与胃癌、萎缩性胃炎的关系。衡量该四项指标的数学要点必然是相应的标准差、方差、均值等，同时，会建立一个或几个函数分析其间关系的正相关或负相关，即其具有一定的相关性，然后利用所给数据求解出一定的数学模型表达式，便可求解出胃病的鉴别方法。三、

6、符号的说明X1：血清铜蛋白X2：蓝色反应X3：尿吲哚乙酸X4：中型硫化物N：被调查的样本数Wilks的lambda：组内平方和与总平方和之比（当所有观测的组均值相等时，Wilks的lambda值为1；当组内变异与总变异相比小时，Wilks的lambda值接近于0。因此，Wilks的lambda值大，表示各个组的均值基本相等；Wilks的lambda小表示组间有差异。在判别分析中，只有组均值不等时，判别分析才有意义）F：F值，F分布中的统计检定值df：自由度sig.：统计显著性，即出现目前样本的机率P：p值四、问题的假设1.该四项生化指标是分别可以测得的。2.每个生化指标都不是其他三个指标的线

7、性组合，即两两之间无相关性。3.被抽取的三类人员中彼此没有任何血缘关系。4.除了本题研究的疾病外，被调查的人员无任何疾病。五、模型的建立根据以上的分析，回忆所学的知识，发现该问题符合判别分析法的要求，因此可以用判别分析法来求解，其中，判别分析法可以分为：距离判别法、Fisher判别法、Bayes判别法等。SPSS软件是统计分析软件之一，它可以进行各种统计分析工作。另外，它所具有的强大的图形输出功能，使运行该软件不仅可以得到各种数字分析结果，还可以得到各种直观、清晰、漂亮的统计图形。从而利用软件SPSS，将所有的数据输入进去，便可以得到协方差矩阵、自由度、p值、均值、标准差等与该问题相关的有利于

8、分析问题的数据及图形。现在主要利用Fisher判别法、Bayes判别法来处理该问题。Fisher判别法的基本思想：从个总体中抽取具有个指标的样品观测数据，借助方差分析的构造一个线性判别函数：，其中系数确定的原则是使得总体之间区别最大，而使每个总体内部的离差最小。有了线性判别函数U后，对于一个新的样品，将它的个指标值代入以上线性判别函数式中求出值，然后根据判别一定的规则，就可以判别新的样品属于哪个总体。Bayes判别法的基本思想：设有个总体，其各自的分布密度函数互不相同的，假设个总体各自出现的概率分别为（先验概率），。假设已知若将本来属于总体的样品错判到总体时造成的损失为，。在这样的情形下，

9、对于新的样品判断其来自哪个总体。通过这两种方式利用软件SPSS来求解，得出的数据在分析比较后，就可以得出结果。六、模型的求解1.spss操作步骤如下（1）建立数据文件在数据窗口中输入上入待分析的数据。（2）按顺序单击分析分类判别菜单项，如图-1所示，系统弹出判别分析的对话框，如图-2所示图-1 先选择菜单进入判别分析对话框注：X1：血清铜蛋白X2：蓝色反应X3：尿吲哚乙酸X4：中型硫化物（3）选择参与判别分析的变量及其他相关设置1）分组变量框：从左侧选入分类变量“类型”于分组变量框中。2）定义范围按钮：定义分类变量的取值范围。单击分类变量按钮，系统弹出一个对话框，如图-3所示。最小值输入1，最

10、大只输入3.完成设置后，单击继续按钮，返回判别分析主对话框，见图-2.图-2 判别分析的主对话框图-3 指定分类变量范围对话框3）自变量列表框：从左侧的变量列表将参与判别分析的变量“X1X4”于其中，如图-4所示。4）一起输入变量单按钮：表示选择所有变量参与判别分析，如图-4所示。图-4（4）判别分析的统计输出设置。单击统计量按钮，系统弹出一个对话框，如图-5所示。图-5 判别分析的统计输出设置1）描述性框：描述统计量选项组，包括3个复选框项，复选均值复选框和单变量复选框。如图-5所示均值复选框：各类中个变量的均值、标准差和各自变量总样本的均值、标准差；单变量复选框：变量均值的单因子差异假

11、设实验。2）函数系数框：判别函数系数选项组，复选Fisher复选框和未标准化复选框，如图-5所示。 Fisher复选框：给出贝叶斯判别函数的系数。未标准化复选框：给出未标准化的Fisher判别函数的系数。（5）指定判别分析的有关参数及有关输出结果设置。单击分类按钮，系统弹出一个对话框，如图-6所示。图-6 指定参数与结果对话框1）先验概率框：先验概率选项组，包括两个单选项，单选所有组相等框如图-6所示。所有组相等框：个二类先验概率相等。2）输出框：分类结果选项组，包括三个复选项，复选个案结果、摘要表和不考虑该个案时的分类复选框如图-6所示。个案结果复选项：对每个样品输出判别函数值、实际类

12、、预测类和后验概率。摘要表复选项：输出分类小结，给出正确分类的样品数、错分样品数和错分率。不考虑该个案时的分类复选项：交叉验证的判别分类结果。3）使用协方差矩阵框：分类使用的协方差矩阵，单选在组内单选项如图-6所示。在组内单选项：使用合并类内协方差矩阵。4）图框：复选合并组、分组和区域图复选框如图-6所示。合并组复选项：使出包括各个类的散点图。分组复选项：每类输出一个散点图。区域图复选项：输出领域图。所有设置完成后，单击继续按钮返回判别分析主对话框。图-7 建立新变量对话框（6）单击保存按钮，系统弹出一个对话框，复选预测组成员、判别得分和组成员概率复选项如图-7所示。1）预测组成员复选项：根据

13、判别函数的值，按后验概率计算预测分类结果。2）判别得分复选项：建立判别函数值变量。3）组成员概率复选项：建立新变量，表明每一个样品属于某一类的概率。所有设置完成后，单击继续按钮返回判别分析主对话框。（7）上述设置完成后，单击确定按钮进行判别分析，得到输出结果。七、模型的结果（1）描述性输出分析案例处理摘要未加权案例N百分比有效15100.0排除的缺失或越界组代码0.0至少一个缺失判别变量0.0缺失或越界组代码还有至少一个缺失判别变量0.0合计0.0合计15100.0图-8图-8表示有效样本及样本变量的实际情况。组均值的均等性的检验Wilks 的 LambdaFdf1df2Sig.x1.888.

14、758212.490x2.4268.074212.006x3.4427.564212.007x4.7861.633212.236图-9由图-9可知显著水平X2、X3最大，而X1、X4显著水平最小。但是由于判别变量间可能相互关联，仅单独检验是不够的。但是通过将X1和X4分别与X2和X3联合后发现，他们对判别的提高有很大的贡献。组统计量类型均值标准差有效的 N（列表状态）未加权的已加权的1x1188.600057.1384355.000x2150.400016.5015255.000x3.1380.0593355.000x4.2000.1332355.0002x1163.000053.805205

15、5.000x2115.000014.8155355.000x3.0700.0187155.000x4.1360.0753755.0003x1151.000033.8008955.000x2121.400013.0115355.000x3.0500.0187155.000x4.0900.0678255.000合计x1167.533348.475131515.000x2128.933321.049151515.000x3.0860.052211515.000x4.1420.100941515.000图-10上表（图-10）表示各组变量的描述统计情况，给出了各个类型的均值、标准差等统计量。通过这些数

16、据，可以大致了解3种类型在这4个指标上的差异。（2）判别函数的检验特征值函数特征值方差的 %累积 %正则相关性12.768a93.593.5.8572.192a6.5100.0.402a. 分析中使用了前 2 个典型判别式函数。图-11Wilks 的 Lambda函数检验Wilks 的 Lambda卡方dfSig.1 到 2.22315.7758.0462.8391.8473.605图-12“特征值”（图-11）表格给出了两个典型判别函数所能解释的方差变异，其中第一个函数解释了所有变异的93.5%，第二个函数解释了余下的6.5%。因而第二个函数的相对重要性远远小于第一个函数。“Wilks的la

17、mbda”（图-12）表格用来检验各个判别函数有无统计学上的显著意义，根据该表反应的值，这些数据表明，第二个判别函数对判别组仍有显著贡献（犯错概率为60.5%）。（3）典型判别式函数摘要标准化的典型判别式函数系数函数12x1.382.011x2.567-.861x3.673.633x4.296.515结构矩阵函数12x3.670*.314x1.208*.178x2.673-.696*x4.296.390*判别变量和标准化典型判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。*. 每个变量和任意判别式函数间最大的绝对相关性图-13图-14 “标准化的典型判别式函数系数”表格（

18、图-13）是两个判别函数中各个变量的标准化系数，由此可以判断各个函数主要受那些变量的影响；“结构矩阵”（图-14）给出的是判别变量和标准化判别函数之间的相关性数据，同样可以用来判断各个函数受那些判别变量的影响最大。对于判别函数1，变量X2、X3的判别意义最大，而对判别函数2变量X3、X4的判别意义最大。（4）未标准化系数和质心函数典型判别式函数系数函数12x1.008.000x2.038-.058x317.95416.880x43.0625.327(常量)-8.2045.228非标准化系数组质心处的函数类型函数1212.095-.0532-.873.5053-1.221-.452在组均值处评估

19、的非标准化典型判别式函数图-15 图-16非标准化系数在使用时可以直接通过原始变量进行计算，如图-15所示。“组质心处的函数”（图-16）表格给出的是各类别的重心在平面上的坐标，如类型一的坐标是（2.095，-0.053）.只要根据这里的典型判别函数（未标准化的），计算出每个观测的平面坐标，再计算它们和各类重心的距离，就可以判断其类型归属。(5) Fisher判别函数分类函数系数类型123x1.127.104.101x2.715.569.611x368.59924.7232.328x44.742-1.376-7.537(常量)-71.993-43.041-45.525Fisher 的线性判别式

20、函数组的先验概率类型先验用于分析的案例未加权的已加权的1.33355.0002.33355.0003.33355.000合计1.0001515.000图-17图-18 Fisher判别函数的输出如图-17、图-18所示。根据分类函数系数表格可得出各类型的Fisher判别函数为：将某待诊者的四项生化指标分别带入到上述各类型对应的Fisher判别函数，得到三个对应的Fisher函数值，根据Fisher后验概率最大这一判别规则，即所得函数值最大，可以判断某待诊者所属的类型。（6）典型判别的散点图图-19图-20图-21以上三图给出的是胃癌、萎缩性胃炎、非胃病三种类型的判别函数值的散点图。第一个图形表

21、示将类型1，即胃癌的5个样本分别代入两个典型判别函数，得到5对判别函数值，从而构成散点图，其中，横坐标是第一典型判别函数值，纵坐标是第二典型判别函数值。在用SPSS软件进行判别分析时，都可以得到类似的判别函数值散点图。以上三点图比较直观地反映了各组观测的分类情况和各组的重心。图-22上图给出了三种类型的典型判别函数值总的散点图，同样是把各类的样品分别代入两个典型判别函数，计算得到15对判别函数值，从而构成这样的散点图，其中，横坐标是第一典型判别函数值，纵坐标是第二典型判别函数值。从图中可以看出，三种类型在图中有各自的分布领域，说明所建立的判别函数的判别精度不太好。（7）每个个体的判别结果按照案

22、例顺序的统计量案例数目最高组第二最高组判别式得分P(Dd | G=g)实际组预测组pdfP(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2初始111.2732.9942.5972.00513.0742.6101.474211.3692.9491.9942.0478.0201.8341.335311.5572.9981.1702.00114.9292.709-.944413*.1142.5974.3361.2376.180.347-1.821511.6582.999.8382.00115.4612

23、.974-.309622.4702.4871.5123.3302.290.233-.033722.4752.6751.4873.3252.950-1.9311.113823*.9072.516.1962.480.340-1.130-.019922.4412.5641.6361.2433.321.401.6181022.5352.6161.2523.3842.195-1.939.8441132*.9992.611.0033.383.936-.897.4601233.9102.664.1882.3301.585-.910-.7541333.3172.7782.2972.1905.111-.356-

24、1.6961433.5082.6191.3542.3812.328-2.304-.0251533.8972.614.2182.3861.147-1.639-.244交叉验证a112*.0004.58338.0671.41638.741212*.0054.91314.9501.05920.424311.3904.9974.1192.00117.190413*.3944.8554.0892.1457.639511.0044.99915.5392.00130.588621*.1484.8246.7743.16310.019722.5214.5353.2253.4653.502823*.9754.56

25、6.4892.4291.044921*.1934.9186.0843.05911.5801022.6994.5072.1983.4922.2581132*.9694.723.5463.2672.5411233.8744.6011.2222.3882.0961333.3284.6124.6262.2806.1891432*.5894.5262.8193.4743.0291532*.6314.5182.5773.4812.726对初始数据来说，平方 Mahalanobis 距离基于典则函数。对交叉验证数据来说，平方 Mahalanobis 距离基于观察值。*. 错误分类的案例a. 仅对分析中的案

26、例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。图-23上表中的案例数目列，是所有个体的编号。实际组列是每个个体实际上所在的类型。在最高组（具有最大分辨率）下的预测组列，是按照计算结果的类型。可以看到编号4经过判别分析后被判到了第三种类型中，即非胃病；编号8经过判别分析后被判到了第三种类型中，即非胃病；编号11经过判别分析后被判到了第二种类型中，即萎缩性胃炎。上表中的最高组（具有最大分辨率）下的P（Dd | G=g）列和df列，是在样本属于该类型而判别不是相应类型的条件概率及其自由度。表中P（D=d | G=g）列是判别样本属于相应类型，而样本确实

27、是相应类型的后验概率。从表中可以看出后验概率还是比较大的。表中的最高组下的到质心的平方 Mahalanobis 距离列，是相应个体距类别重心的马氏距离的平方。上表中的第二最高组（具有第二大分辨率）下的组列，是把相应判为相应类型的情况。表中的第二最高组下的P（D=d | G=g）是判别样本属于相应类型，而样本确实是相应类型的后验概率。表中第二最高组下的到质心的平方 Mahalanobis 距离列，与表中最高组下的定义相同。表中最后一列是两个典则判别函数之值。分类结果b,c类型预测组成员合计123初始计数140152041530145%180.0.020.0100.02.080.020.0100.

28、03.020.080.0100.0交叉验证a计数122152221530325%140.040.020.0100.0240.040.020.0100.03.060.040.0100.0a. 仅对分析中的案例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b. 已对初始分组案例中的 80.0% 个进行了正确分类。c. 已对交叉验证分组案例中的 40.0% 个进行了正确分类。图-24由图-24可以得出该模型的判别正确率为80%，较低。八模型的评价与改进方向在此模型下，我们是假设把所有存在的判别变量都选入判别函数，并说明如何通过计算标准化判别函数系数，辨

29、认出不重要的判别变量，但最后的判别正确率不太高，因此我们必须对模型进行改进。根据图-11和图-13可计算各个指标对整个判别函数总体的判别系数。对X1，其判别系数为：0.935*0.382+0.065*0.011=0.；对X2，其判别系数为：0.935*0.567+0.065*（-0.861）=0.47418；对X3，其判别系数为：0.935*0.673+0.065*0.633=0.6704；对X4，其判别系数为：0.935*0.296+0.065*0.515=0.。根据以上平均判别系数的数据，可以发现X3的平均判别系数最大，判别意义最大；X4的平均判别系数最小，即其判别意义最小。因此，我们在此

30、过程中可以考虑将X4舍去。通过以上类似过程，我们可以得到每个个体的判别结果如图-25和图-26所示，则最后的判别正确率为93.3%。按照案例顺序的统计量案例数目最高组第二最高组判别式得分P(Dd | G=g)实际组预测组pdfP(G=g | D=d)到质心的平方 Mahalanobis 距离组P(G=g | D=d)到质心的平方 Mahalanobis 距离函数 1函数 2初始111.0432.9966.3062.00417.4522.7882.365211.6542.815.8482.1274.5641.223.434311.4152.9961.7603.00213.9222.526-1.2

31、53411.1332.4424.0313.4004.232.641-1.485511.6562.999.8452.00115.1142.924-.192622.4112.4591.7791.2852.731.420.385722.4742.6261.4933.3742.524-2.049.877822.9822.547.0363.447.438-.957.244922.5642.4541.1443.4541.145-.054-.2091022.5492.6251.1983.3752.219-1.926.8431132*.9532.523.0963.472.304-1.043.1461233.8

32、712.533.2762.448.623-.593-.2931333.3382.6852.1722.2394.281-.094-1.4721433.4592.6371.5572.3632.681-2.354-.3511533.8822.531.2522.468.504-1.451-.036交叉验证a111.0003.93126.3602.06931.563211.1913.5154.7462.3265.665311.3183.9923.5243.00514.081413*.2563.6794.0492.2925.737511.0013.99915.5272.00130.175621*.1603

33、.8815.1733.0989.559723*.3823.5173.0612.4833.199822.9893.536.1233.455.447923*.5273.5762.2272.2713.7361022.5793.5331.9673.4662.2361132*.9423.567.3923.425.9691233.9163.503.5122.473.6371333.2303.4864.3122.3205.1511433.4453.5182.6722.4822.8161532*.6233.5911.7643.4072.508对初始数据来说，平方 Mahalanobis 距离基于典则函数。对

34、交叉验证数据来说，平方 Mahalanobis 距离基于观察值。*. 错误分类的案例a. 仅对分析中的案例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。图-25由上图可知，编号11经过判别分析后，被判到了第二种类型，即萎缩性胃炎。分类结果b,c类型预测组成员合计123初始计数150052050530145%1100.0.0.0100.02.0100.0.0100.03.020.080.0100.0交叉验证a计数140152122530235%180.0.020.0100.0220.040.040.0100.03.040.060.0100.0a. 仅

35、对分析中的案例进行交叉验证。在交叉验证中，每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。b. 已对初始分组案例中的 93.3% 个进行了正确分类。c. 已对交叉验证分组案例中的 60.0% 个进行了正确分类。图-26因此最后可以建立改进后的判别函数如图-27所示。分类函数系数类型123x1.129.103.096x2.718.568.606x366.86925.2255.077(常量)-71.901-43.033-45.293Fisher 的线性判别式函数图-27根据分类函数系数表格可得出各类型的Fisher判别函数为：将某待诊者的三项生化指标分别带入到上述各类型对应的Fis

36、her判别函数，得到三个对应的Fisher函数值，根据Fisher后验概率最大这一判别规则，即所得函数值最大，可以判断某待诊者所属的类型。虽然，该模型并不能100%的判断出待诊者所属的类型，但是，利用该模型能够对待诊者做出简单、快速、较为准确的判断，能够解决医学上现在所面临的问题。同时，也成为医学上一种新的诊断方式，与传统的诊断方式相比，准确率得到了大幅提高，治疗效果也会更为显著。参考文献1 张建同、孙昌言，以Excel和SPSS为工具的管理统计，清华大学出版社，2005年；2 王力宾、顾光同，多元统计分析：模型、案例及SPSS应用，经济科学出版社， 2010年；3 张力， SPSS在生物统计中的应用（第二版），厦门大学出版社， 2008年；4 贾丽艳、杜强， SPSS统计分析标准教程，人民邮电出版社， 2010年；5 倪雪梅，精通SPSS统计分析，清华大学出版社，2010年；6 专心-专注-专业

展开阅读全文