《2022年数学建模 2.pdf》由会员分享,可在线阅读,更多相关《2022年数学建模 2.pdf(23页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、2012高教社杯全国大学生数学建模竞赛名师资料总结-精品资料欢迎下载-名师精心整理-第 1 页,共 23 页 -1 葡萄酒的评价摘要随着如今葡萄酒理化指标检测手段的进步,利用酿酒葡萄及葡萄酒的理化指标对葡萄酒进行质量判别已成为现代检测葡萄酒质量的一种趋势,为此,本文做了如下研究,来分析葡萄及葡萄酒的理化指标对葡萄酒质量的影响。对于问题一,利用SPSS软件的 K-S 检验分析每组评酒员打分,得到每种样本集的打分均符合正态分布,再利用 MATLAB 中的 ttest2函数对样本进行 t 检验,以检验第一组评酒员与第二组评酒员评分结果的显著性差异,得到两组评酒员的评价结果具有显著性差异;最后综合运用
2、信度分析和均标准差方法来求可信度,得出第二组评酒员的评价结果更可信。对于问题二,先将第二组评酒员得出的葡萄酒质量结果,利用灰色模型,对每种样品的十个得分灰色数据融合算法计算,得出更合理的葡萄酒质量得分,结果见表5 和表6。再利用 SPSS对酿酒葡萄的理化指标分别采用相关性分析和主成分分析模型,对酿酒葡萄进行排名,得到结果见表11和表 12;最后再利用不同权值得出酿酒葡萄的得分,结果见表 13,分别对酿酒葡萄得分结果进行聚类分析,选出其中一组符合定义的葡萄级别黄金分割型,最终权重及酿酒葡萄的分级见表14。对于问题三,针对所给样本建立了BP 人工神经网络,并对其进行了训练,得到的结果表明,建立的网
3、络可以很好表现白葡萄和白葡萄酒的理化指标之间的联系,对红葡萄的表现则不如表现白葡萄和白葡萄酒之间的联系。对于问题四,首先用由相关性分析等方法提取的一部分葡萄及葡萄酒理化指标的主要成分与葡萄酒质量得分之间建立了多元线性回归模型,求得红葡萄酒和白葡萄酒各自变量的权重,求得红酒和白葡萄酒的复相关系数均为0.5;再使用主成分分析方法得到主要芳香物质,然后以葡萄、葡萄酒的理化指标以及芳香物质与葡萄酒质量得分之间再次建立多元线性回归模型,得到红葡萄酒和白葡萄酒的各自变量的权重,以及得到加入芳香物质指标后的红酒复相关指数为0.6261,白酒的复相关指数为0.5,白酒的复相关系数无变化,可以得出对于红酒单纯用
4、葡萄和葡萄酒的理化指标不足以评价葡萄酒的质量,而对于白葡萄酒则可以用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。关键词:葡萄酒评价灰色模型主成分分析BP 神经网络理化指标名师资料总结-精品资料欢迎下载-名师精心整理-第 2 页,共 23 页 -2 1.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该
5、年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:(1)分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?(2)根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。(3)分析酿酒葡萄与葡萄酒的理化指标之间的联系。(4)分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。模型假设与符号说明2.1模型假设(1)假设题目中所有调查数据真实可信;(2)假设在葡萄酒品尝时的评价标准是客观的,符合实际情况;(3)假设当仪器没有检测到该样品成分时,其含量为零;(4)假设酿酒葡萄的好坏与所酿葡萄酒的质量有直接的
6、关系;(5)假设酿酒葡萄和葡萄酒有效理化指标的主要成分对葡萄酒质量仅产生线性影响(6)假设两组评酒员对样本就的评价结果数据是两组独立的样本;名师资料总结-精品资料欢迎下载-名师精心整理-第 3 页,共 23 页 -3 2.2符号说明1iA:第一组的 10 个品酒员对第i种红葡萄酒的评分集合(1,2,27i);2iA:第二组的 10 个品酒员对第i种红葡萄酒的评分集合(1,2,27i);1jB:第一组的 10 个品酒员对第j种白葡萄酒的评分集合(1,2,28j);2jB:第二组的 10 个品酒员对第j种白葡萄酒的评分集合(1,2,28j);n:每个评分集合的样本容量,本题中n=10;2.问题分析
7、3.1 问题(1)分析该问题要求分析附件1 中两组评酒员的评价结果有无显著性差异,并且要得到哪一组结果更可信。题目中分别给出了两组评酒员对27 种红葡萄酒和 28 种白葡萄酒基于各项评分标准的得分情况。本文首先对每种酒的分类指标求和,得到每个评酒员对每种酒的总得分,这些总得分可以分为 4 类:第一组红葡萄酒品尝总分、第一组白葡萄酒品尝总分、第二组红葡萄酒品尝总分以及第二组白葡萄酒品尝总分,然后对这四类数据从显著性差异和可信度方面进行进一步分析。关于显著性差异,通常情况下,实验结果达到0.05 水平或 0.01 水平,才可以说数据之间具备了差异显著或是极显著。在作结论时,应描述方向性(例如显著大
8、于或显著小于)。sig值通常用0.05P表示差异性不显著;0.010.05P表示差异性显著,p0.01表示差异性极显著。具体从以下几个步骤进行讨论研究。对于上述四类葡萄酒品尝总分数据,将每组数据中一个样品酒的10个总得分数据记为一组样本数据,用字母A或B表示。第一步用 K-S 单样本检验方法来检验这组样本数据的实际分布是否符合对应的理论分布,经过进一步计算得到,这些样本数据均服从正态分布。在符合正态分布的前提下,如果总体标准差未知,而且样本容量30n,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。第二步对对应一种样品酒的两组样本集合进行t检验,通过对双总体t检验来检验两组样本平
9、均数与其各自所代表的总体的差异是否显著。第三步得到两组品酒员的评价结果是否有显著性差异。关于结果的可信度,我们运用了两种方法来确定其可信度,一种是通过计算标准差名师资料总结-精品资料欢迎下载-名师精心整理-第 4 页,共 23 页 -4 的方法,如果一组数据的标准差越大,说明各个品酒员之间评分存在异议的程度越大,结果的不确定性也越大,导致结果的可信度低。另一种是通过信度分析来评价这组数据的可靠性。信度反映了测验结果的一致性或稳定性,是被测特征真实程度的指标。信度分析的主要方法有重测信度法、折半信度法和信度系数法。本文则选用了常用的信度系数法对结果的可信度进行信度分析。3.2 问题(2)分析问题
10、(2)是根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。题目附录 2 中给出了酿酒葡萄的55 个理化指标,其中有一级指标和二级指标,而葡萄酒的质量是由评酒员的打分来确定的。根据对问题(1)的分析与计算,得到第二组评酒员的结果更为可信,因此本文采用第二组评酒员评分作为葡萄酒的质量。酿酒葡萄的分级既受制于葡萄的理化指标,又与其所酿成的葡萄酒的质量有关(将葡萄的理化指标和葡萄酒的质量称为一组变量)。由于酿酒葡萄的分级与这组变量有关,而且变量的维数很大,所以很难直接考虑它们与结果的关系。当考察的变量是一组变量(多于两个变量)时,则需要考察这一组变量总体的相关性,也可称为多元整体相关性分析。
11、所以对第二题,本文采用如下的思路进行求解。第一步通过对酿酒葡萄的理化指标和葡萄酒的质量进行相关性分析,考察多个变量整体的相关性,剔除相关性较小的指标,留下相关性较大的指标;第二步对剩下的指标再通过主成分分析法,用维数极少的互补相关的新变量来反映原变量所提供的绝大部分信息;第三步通过对新变量的分析计算得到葡萄基于理化指标的得分情况。但是这并没有把葡萄酒的质量考虑在内,所以第四步本文以葡萄的理化和葡萄酒质量这两个指标设置不同权重,综合考虑葡萄酒质量的分数排名和理化指标的分数排名,最终利用聚类分析确定葡萄的得分分级。3.3 问题(3)分析此问题采用 BP 神经网络进行求解,BP(Back Propa
12、gation)神经网络是 1986 年由Rumelhart和 McCelland 为首的科学家小组提出,是一种按误差逆传播算法训练的多层前馈网络,是目前应用最广泛的神经网络模型之一。BP 网络能学习和存贮大量的输入到输出模式映射关系,而无需事前揭示描述这种映射关系的数学方程。由此我们可以将BP 神经网络应用于该多因变量的多元线性回归分析上,利用问题中提供的酿酒葡萄的经过相关性等方法得到部分的理化指标作为BP 网络的输入,葡萄酒质量的得分为网络输名师资料总结-精品资料欢迎下载-名师精心整理-第 5 页,共 23 页 -5 出层进行训练,最后得到一个可信的网络,用这个网络来表示酿酒葡萄与葡萄酒质量
13、之间的联系。3.4 问题(4)分析本题要分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。在前三个题的基础上,首先通过主成分分析法将原有的大量指标降维,得到既能反映指标的特征,指标维数较小的主要成分。根据是否考虑芳香物质对葡萄酒质量的影响,将问题分为两个方面进行讨论。(1)不考虑芳香物质的影响将葡萄和葡萄酒的理化指标作为因变量,以第一问求得的葡萄酒质量为自变量,分别围绕着红葡萄的27 组数据和白葡萄的 28 组数据,采用多元线性回归的方法对数据拟合,然后对拟合曲线与原始点的差异进行讨论分析,得出反映多元线性回归的拟合度的参数。(2)考虑芳香物质的影响对各项芳香物质进行主成分分析后,得到了芳香物
14、质的主要成分。将芳香物质的主要成分和葡萄以及葡萄酒理化指标的主要成分一起作为因变量,以葡萄酒质量作为自变量,依然采用和(1)相同的方法,得出一组反映多元线性回归的参数。然后对比参数之间的差异,得出结果。3.建模前的准备4.1 数据的预处理考虑到本题涉及的数据量特别庞大,因此对这些数据进行预先的处理也很重要,本文从以下几个方面对数据进行预处理。(1)剔除无效数据:在题目的附录 1 中,所给数据出现了缺失与错误:第一组红葡萄酒品尝评分表表格F76 的数据缺失以及第一组白葡萄酒品尝评分表表格J233的数据有误(满分 8 分,此处为 77 分),对于此类问题,本文通过对其他9 名品酒员在该项目得分的均
15、值作为此缺失或错误的数据。(2)分类指标求和:在附录 1 中,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,通过对各分类名师资料总结-精品资料欢迎下载-名师精心整理-第 6 页,共 23 页 -6 指标求和得到其总分,确定出葡萄酒的质量。(3)多次测量均值:在附录 2 中,有些项目/理化指标测试了不止一次,通过对这几次的测量结果求平均值,来减少误差。4.2 用灰色模型计算酒样品的总分在这个问题中一个酒样品由10 个评酒员进行打分,按照通常的做法,我们会去掉一个最高分,去掉一个最低分,剩下的取平均值作为样品酒的最后得分。可是,严格的讲,如果评酒员比较权威,最高分最低分也反映了样品酒某方面的一些
16、情况,贸然去掉的话会损失一些信息,因此本文采用了灰色数据融合算法(算法的进一步介绍可见参考文献 5,第 184-186页),不但充分利用这些信息,而且这些信息又不会对结果造成决定性的影响。在后面的计算中用到的酒样品分数都是通过灰色模型计算出的。4.模型的建立与求解5.1 问题(1)的模型建立与求解5.1.1评价结果的显著性差异根据问题的分析,关于显著性差异的讨论可以分为以下几步。(1)K-S 单样本检验K-S 检验是将一组样本值(观察结果)的分布和某一指定的理论分布函数(如正态分布,均匀分布,泊松分布,指数分布)进行比较,确定两者之间的符合程度。这种检验可以确定是否有理由认为样本的观察结果来自
17、具有该理论分布的总体。简言之,这种检验包括确定理论分布下的累积频数分布,以及把这种累积频数分布和观察的累积频数分布进行比较(这里的理论分布是指零假设成立时所预期的分布),确定理论分布和观察分布的最大差异点,参照抽样分布并定出这样大的差异是否基于偶然。这就是说,若观察的结果的确是从理论分布抽取的随机样本,则抽样分布将指出这种观察到的差异程度是否是随机出现的。本文运用 SPSS软件对1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)总名师资料总结-精品资料欢迎下载-名师精心整理-第 7 页,共 23 页 -7 共 110组样本数据分别进行K-S 单样本检验,在显著性水平0.05的情
18、况下检验发现所有的样本值均符合正态分布。以11A(第一组品酒员对第1 种红葡萄酒的评分集合)为例进行说明,下面给出Kolmogorov-Sirmov 单样本检验表,如下表所示。表 1:12A的 K-S 单样本检验表单样本 Kolmogorov-Smirnov 检验样品一N 10 正态参数均值62.70 标准差9.638 最极端差别绝对值0.133 正0.129 负-0.133 Kolmogorov-Smirnov Z 0.420 渐近显著性(双侧)0.995 从表中可以看出,Kolmogorov-Sirmov 单样本检验的0.995p大于 0.05,差异不显著,即不能否定假设样本集12A服从正
19、态分布。因此,可认为服从正态分布。(2)双总体t检验双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是相关样本平均数差异的显著性检验,用于检验匹配而成的两组被试获得的数据或同组被试在不同条件下所获得的数据的差异性,这两种情况组成的样本即为相关样本。二是独立样本平均数的显著性检验。各实验处理组之间毫无相关存在,即为独立样本。该检验用于检验两组非相关样本被试所获得的数据的差异性。考虑到本题是两组不同人员对同品种的酒进行品评,因此产生的两组数据是独立的,固本文采用独立样本平均数的显著性检验。对本文运用MATLAB 软件中的 ttest函数分别对1iA
20、和2iA(1,2,27i)、1jB和2jB(1,2,28j)进行t检验,得到显著性结果如下表。表 2:两组评价结果的显著性差异表酒样品编号红葡萄酒白葡萄酒名师资料总结-精品资料欢迎下载-名师精心整理-第 8 页,共 23 页 -8 存在显著性差异1,2,3,6,7,8,9,10,11,12,13,15,16,17,18,19,20,21,22,23,24 5,6,9,12,13,14,15,19,22,26,27 不存在显著性差异4,5,14,25,26,27 1,2,3,4,7,8,10,11,16,17,18,20,21,23,24,25,28 从上表可以看出,红葡萄酒中有21 种酒的评价
21、结果存在显著性差异,白葡萄酒中有 11 种酒存在显著性差异,两组评酒员的评价结果有显著性差异。5.1.2评价结果的可信度根据问题分析,本文用两种模型来讨论结果的可信度,信度分析法与标准差计算法。(1)信度分析信度是指一个衡量的正确性或精确性,信度包括稳定性以及一致性。本文用信度系数法,克朗巴哈信度系数是目前最常用的信度系数。其公式为:1var()11varkiikk(1)其中,k为量表中评估项目的总数,var()i为第i个项目得分的表内方差,var为全部项目总得分的方差。对于信度系数的界限值,不同研究者对其有不同的看法,一般有如下看法,见下表:表 3:信度系数评价表a 信度系数范围0.60-0
22、.65 0.65-0.70 0.70-0.80 0.80-1.00 可信程度不可信最小可接受值很可信十分可信通过 SPSS软件分别对1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)进行信度分析,得到各个信度系数如下表.表 4:四类数据的信度系数值分组第一组红葡萄酒第二组红葡萄酒第一组白葡萄酒第二组白葡萄酒信度系数0.878 0.928 0.971 0.962 由上表可以看出,标准化项的信度系数都大于0.8,由信度系数评价表可知所有评价结果均十分可信,但是第二组红葡萄酒的值明显大于第一组的值,说明第二组红葡萄酒的评价结果更可信,而两组白葡萄酒的值在0.97 左右,相差不大,所以
23、下面通过求标准差的方法来继续讨论。名师资料总结-精品资料欢迎下载-名师精心整理-第 9 页,共 23 页 -9(2)标准差计算法分别计算1iA和2iA(1,2,27i)、1jB和2jB(1,2,28j)的标准差,做出如下的折线图。0246810121 3 5 79 11 1315 17 19 21 2325 27酒样品编号标准差第一组红葡萄酒第二组红葡萄酒02468101214161 3 5 7 9 1113 15171921232527酒样品编号标准差第一组白葡萄酒第二组白葡萄酒图 1:两组红葡萄酒的标准差折线图图 2:两组白葡萄酒的标准差折线图由上图明显可以看出来第二组数据的标准差小于第一
24、组的标准差,而且经过Excel计算得出,第一组的均标准差为10.57,第二组的均标准差为7.14,小于第一组。因此得到对于白葡萄酒的评价结果是第二组更可信。综合以上两种评价方法得出最终结论:第二组评价结果更可信。5.2 问题(2)的模型建立与求解由问题一得第二组结果可信后,下面用灰色模型得出每种葡萄酒样品得分,如下表:表 5:红葡萄酒各样本质量得分样本序号得分样本序号得分样本序号得分1 69.136 10 68.165 19 72.901 2 73.725 11 62.921 20 75.976 3 75.037 12 68.674 21 72.712 4 72.111 13 68.49 22
25、 71.769 5 72.313 14 72.721 23 77.653 6 66.309 15 66.295 24 71.56 7 66.347 16 69.664 25 67.466 8 66.366 17 74.7 26 71.912 9 78.434 18 64.869 27 71.221 表 6:白葡萄各样本质量得分样本序号得分样本序号得分样本序号得分样本序号得分1 82.751 8 73.629 15 73.576 22 71.596 2 76.073 9 73.86 16 74.811 23 75.824 3 78.376 10 76.122 17 79.995 24 74.16
26、8 名师资料总结-精品资料欢迎下载-名师精心整理-第 10 页,共 23 页 -10 4 79.971 11 73.487 18 74.857 25 77.43 5 72.483 12 64.237 19 72.102 26 81.531 6 69.059 13 66.756 20 78.908 27 65.95 7 78.577 14 73.367 21 78.967 28 82.781 5.2.1多元变量的相关性分析在数据分析的过程中,常常需要分析两个或两个以上变量之间的因果关系,通常会采用相关性分析方法,它不需要区分自变量和因变量,两个或者多个变量之间是平等的关系,通过相关分析可以了解变
27、量之间(葡萄酒质量与其他成分指标)的关系密切程度。现在假设一共有p个指标pXXX,21,12,(1,2,)TkkkknXxxxkp表示每个指标有n个样本数据,记其样本数据矩阵为:pnijpxXXXA,21(2)本文分别将红葡萄和白葡萄的样本数据矩阵导入SPSS软件中进行相关性分析,得到结果如下表:表 7:红葡萄中各项理化指标与红葡萄酒质量的相关系数指标编号指标名称相关系数p值显著程度1 总酚0.476 0(*)2 总黄酮0.481 0(*)3 自由基0.418 0.003(*)4 花色苷0.385 0.005(*)5 PH 值0.385 0.005(*)6 蛋白质0.356 0.009(*)7
28、 顺式白藜芦醇苷0.320 0.02(*)8 黄酮醇0.316 0.021(*)9 顺式白藜芦醇0.316 0.025(*)10 葡萄糖0.324 0.03(*)11 固酸比0.293 0.032(*)12 单宁0.282 0.039(*)表 5 的结果初步确定了12 个(10 个指标显著相关、2 个指标极显著相关)与红葡萄酒的质量显著相关的理化指标。其中总酚和总黄酮极显著相关(0.01p),其他指标显著相关(0.05p)表 8:白葡萄中各项理化指标与白葡萄酒质量的相关系数名师资料总结-精品资料欢迎下载-名师精心整理-第 11 页,共 23 页 -11 指标编号指标名称p值相关系数显著程度1
29、可溶性固形物0.009 0.483(*)2 苏氨酸0.011 0.475(*)3 总糖0.013 0.462(*)4 果穗质量0.014 0.458(*)5 酒石酸0.035 0.400(*)6 干物质含量0.037 0.369(*)表 6 的结果也初步确立了6 个与白葡萄酒的质量显著相关的指标,但是由实际资料知,白葡萄酒质量的影响因素众多,仅使用白葡萄中的该六项理化指标很有可能造成其他关键理化指标的丢失,因此该相关性分析不可取。下面只通过主成分分析对白葡萄的各项理化指标进行降维。5.2.2深入分析 主成分分析对红葡萄而言,相关分析只是简单地估测了12 个变量之间的关系(密切程度),而且经过相
30、关性分析之后,原来的50 多个变量指标已经降低了维度,但我们希望对这些变量再加以“改造”,用维数更少的互补相关的新变量来反映原变量所提供的绝大部分信息,以此来“浓缩”原来的变量。主成分分析(PCA)是将多项指标重新组合成一组新的互相无关的几个综合指标,根据实际需要从中选取尽可能少的综合指标,以达到尽可能多的反映原指标信息的分析方法。将红葡萄相关性分析得出的指标及其相关系数导入SPSS中进行主成分分析后,得到了 4 个主成分,而且每个主成分与12 个指标的关系也已经得出(见附录)。为了方便,把四个主成分记做1a、2a、3a和4a。下面给出四个主成分的贡献率。和由表7 可算出,4 个主成分的累计贡
31、献率为84.34%,具有统计学上的意义。表 9:红葡萄的主成分贡献率主成分1a2a3a4a贡献率48.776%15.19%12.95%7.42%由于白葡萄相关性分析的结果和实际情况有出入,所以对白葡萄的理化指标直接用主成分分析法,得到了10 个主成分,结果的贡献率见下表:表 8:白葡萄的主成分贡献率主成分1b2b3b4b5b贡献率30.919 17.386 12.095 7.581 6.016 名师资料总结-精品资料欢迎下载-名师精心整理-第 12 页,共 23 页 -12 主成分6b7b8b9b10b贡献率4.776 4.072 3.135 2.344 1.853 5.2.3根据实际情况确定
32、相应权值分级合理度定义:如果一个样本分级后首尾级别的数量与中间级别的数量比等于或接近黄金分割的比例,则认为这个分级是合理的,即0.6180mpn为合理分级。设红葡萄主成分对应的贡献率为i,那么基于理化性质的得分就是:411iiiSa(3)而红葡萄酒的质量可由评酒员评分得到(灰色模型计算),记之为2S。经过计算得到两种葡萄的质量和理化指标排名如下表:表 11:红葡萄两项得分和排名样品质量得分排名理化因子得分排名样品质量得分排名理化因子得分排名1 69.136 17-43.7995 22 15 66.295 25-34.9385 19 2 73.725 6 6.652742 8 16 69.664
33、 16-52.8798 26 3 75.037 4 61.86166 3 17 74.7 5 5.040663 9 4 72.111 11-17.1434 15 18 64.869 26-40.6126 21 5 72.313 10-1.98894 11 19 72.901 7 40.84781 5 6 66.309 24-23.1639 18 20 75.976 3-19.6468 16 7 66.347 23-50.4161 24 21 72.712 9 13.88077 7 8 66.366 22-12.4504 14 22 71.769 13-3.11585 12 9 78.434 1
34、 121.7716 2 23 77.653 2 184.9155 1 10 68.165 20 3.164361 10 24 71.56 14-20.7027 17 11 62.921 27-50.554 25 25 67.466 21 21.08909 6 12 68.674 18-44.0959 23 26 71.912 12-53.1565 27 13 68.49 19 50.37205 4 27 71.221 15-35.8099 20 14 72.721 8-5.12143 13 表 12:白葡萄两项得分和排名白酒样品质量得分排名理化因子得分排名白酒样品质量得分排名理化因子得分排名1
35、 78.236 10-16.6641 15 15 79.172 9 55.6004 4 2 76.677 20-8.86215 13 16 66.915 28-8.46055 12 名师资料总结-精品资料欢迎下载-名师精心整理-第 13 页,共 23 页 -13 3 77.743 12 80.88439 1 17 80.481 6-48.8049 28 4 77.438 14-18.7383 20 18 76.901 19-18.193 18 5 81.349 3 44.25456 6 19 76.94 18-42.998 26 6 75.736 22 17.46198 9 20 77.167
36、 16 11.48898 10 7 74.842 23 26.39706 7 21 80.977 4-27.2234 22 8 72.863 26-32.0133 23 22 79.757 7-39.8853 25 9 82.395 1-18.1745 17 23 77.305 15-18.3057 19 10 80.765 5 8.561758 11 24 76.955 17 46.62496 5 11 72.189 27-47.5245 27 25 81.676 2 19.72252 8 12 74.355 25-36.4464 24 26 76.09 21-9.2458 14 13 74
37、.822 24-17.2335 16 27 77.784 11 64.65698 2 14 77.499 13-24.8686 21 28 79.529 8 57.98778 3 而红葡萄酒的质量可由评酒员评分得到(灰色模型计算),记之为2S。为了使得对红葡萄的评价更准确,综合考虑1S和2S,设置权重和(1),最终得到对红葡萄评分的模型:41211iiiSSSSa(4)由于本文没有给出上述两个指标的权重,如果主观确定权重是不合理的。因此,这里通过讨论不同比例的权重得到的结果来确定合理分级。这里和分别取(0.3,0.7),(0.4,0.6),(0.5,0.5),(0.6,0.4),(0.7,0.
38、3)这 5 组数据分别对两种指标的排名进行综合,得到最终排名,再把最终排名作为个案,利用SPSS软件进行聚类分析,这里将其先分为四类,然后再合并中间两类,再和0.618 进行比较,最终得到结果如下:表 13:不同权重的合理情况权重葡萄种类首尾级别数量中间级别数量差的绝对值nmp0.3 0.7 红3 5 20 0.197 白3 4 21 0.285 0.4 0.6 红7 35 20 0.197 白2 4 22 0.345 0.5 0.5 红3 11 13 0.459 白2 7 19 0.144 0.6 0.4 红3 9 15 0.182 白2 2 24 0.451 名师资料总结-精品资料欢迎下载
39、-名师精心整理-第 14 页,共 23 页 -14 0.7 0.3 红3 10 14 0.311 白8 2 18 0.062 由上表可以看出,红葡萄的五组数据中,第四组的差值P 最小,这里取权重系数组(0.6,0.4);在白葡萄的五组数据中,第五组数据差值绝对值P 值最小,于是这里取权重系数组(0.7,0.3),可将两种葡萄各分为3 级。其对应的分级如下:表 14:两种葡萄最终分级红葡萄白葡萄样品级别样品级别样品级别样品级别23 1 20 2 5 1 14 2 9 1 8 3 20 1 6 2 3 1 24 3 25 1 21 3 19 2 6 3 27 1 19 3 13 2 27 4 23
40、 1 16 3 21 2 15 4 28 1 4 3 25 2 1 4 3 1 2 3 2 2 18 4 7 1 8 3 17 2 12 4 9 2 18 3 5 2 7 4 12 2 17 3 10 2 16 4 26 2 24 3 22 2 11 4 15 2 1 3 14 2 26 4 22 2 11 4 4 2 10 2 13 4 5.3问题(3)的模型建立与求解5.3.1红葡萄的 BP 网络建立BP 网络模型如图 1 所示,对于红葡萄,由第二问的分析得出酿酒葡萄影响红葡萄酒的质量的理化指标有12 个,而葡萄酒的理化指标为6 个(除去色泽,仅考虑一级指标),那么相应的对红葡萄的BP 网
41、络建立时,输入层即取为12,输入为输出层有 6 层,分别为123456(,)Tyyyyyyy,分别代表的理化指标为花色苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH 半抑制体积。名师资料总结-精品资料欢迎下载-名师精心整理-第 15 页,共 23 页 -15 图 3:BP 网络模型这个网络隐含层与输出层之间使用函数logsig 函数以及 purelin 函数,利用 newff建立网络,即 net=newff(minmax(redData),20,6,logsig,purelin);训练函数使用 trainlm函数,相应的训练函数的参数设置如下:net.trainParam.show=500;ne
42、t.trainParam.lr=0.003;net.trainParam.mc=0.9;net.trainParam.epochs=3000;net.trainParam.goal=1e-4;网络建立好之后对网络进行训练,在训练过程中不断调整训练参数,知道最终其网络的输出与实际相比的相对误差最小即停止训练,可以得到建立的BP网络的实际误差条图如图 4,相应的相对误差见附录1,图 4:预测红葡萄酒误差条图图 5:红葡萄酒的理化指标的均方误差图从图 4 可以看出其误差条图误差相对较小,而由于参数设置对最终网络的可用性影响较大,可以得到其训练过程得到的均方误差图图5:可以看出训练 40 次左右就开始
43、收名师资料总结-精品资料欢迎下载-名师精心整理-第 16 页,共 23 页 -16 敛,同样得到回归曲线仿真见图6,相应的 R 值为 0.98893,其回归性分析很好。图 6:仿真回归图图 7:红葡萄酒理化指标相对误差线由图 7 可以看出,某些样本的理化指标预测的相对误差很大,其具体分布见表9。表 15:理化指标相对误差分布表相对误差区间0.10.20.30.40.50.5该区间的样本点数14 16 18 19 19 8 由该表可以看出使用该神经网络经过训练后的预测结果虽然对大部分样品的估计相对误差比较小,但是也有一些估计失真的情况,因此由红葡萄理化指标与葡萄酒的理化指标建立的神经网络对筛选出
44、的红葡萄的理化指标和葡萄酒的理化指标具有一定预测性,从而在红葡萄的理化指标和葡萄酒理化指标之间建立相对比较粗略的网络联系。5.3.2白葡萄的 BP 网络建立对于白葡萄的理化指标和白葡萄酒的理化指标之间的联系求解,建立一个输入层有11 层,分别为代表白葡萄的11个理化指标,即输出层为 5 层,分别为12345(,)Tpppppp,其训练函数 train 的参数设置如下:net.trainParam.show=100;net.trainParam.lr=0.02;net.trainParam.mc=0.9;net.trainParam.epochs=5000;net.trainParam.goal
45、=1e-5;名师资料总结-精品资料欢迎下载-名师精心整理-第 17 页,共 23 页 -17 网络建立时,设置其中间隐含层为15 层:net=newff(minmax(whiteData),15,5,logsig,purelin);相应的得到其误差条图,如图8:图 8:白葡萄酒的理化指标误差条图图 9:白葡萄酒的理化指标的均方误差图图 8 表明:该训练网络预测得到的白葡萄酒的理化指标的误差很小,以至于误差条图成了点图,说明该网络预测相当成功。相应的,白葡萄酒的均方误差图如图9 所示,由图 9 可以看出,网络训练约在220 次即达到最好值,说明网络收敛速度较快。相应的仿真回归曲线如下图10:图
46、10:白葡萄酒理化指标相对误差由得到的 R 值为 1,可得其回归的显著性水平极其高,而有网络得到其相对误差均在以下,从而可以得出结论,建立的该BP 神经网络训练之后,在白葡萄的理化指标和白葡萄酒的理化指标之前起到了一个很好的联系桥梁作用,基本上可以毫无误差的对一定白葡萄的理化指标输入得到相应的白葡萄酒的理化指标的十分精确的预测输出。5.4 问题(4)的模型建立与求解名师资料总结-精品资料欢迎下载-名师精心整理-第 18 页,共 23 页 -18 5.4.1不考虑芳香物质的影响对于红葡萄及葡萄酒的理化指标总共提取了18 个理化指标,设之为1218,x xx,红葡萄酒的质量作为因变量,设之为y。那
47、么y与1218,x xx之间的多元线性回归模型为:1801kkkyx(5)220118(0,),N是未知参数。利用 MATLAB 中的 regression函数对红葡萄的 27 组数据进行多元回归分析,然后分别计算得到 27 组数据的残差、剩余残差平方和、回归平方和以及复相关系数见表。对于白葡萄及葡萄酒的理化指标总共提取了17 个理化指标,设之为1217,x xx,白葡萄酒的质量作为因变量,设之为y。那么y与1217,x xx之间的多元线性回归模型为:1701kkkyx(6)220118(0,),N是未知参数。得到残差、剩余残差平方和等参数。5.4.2考虑芳香物质的影响同样运用主成分分析法从红
48、葡萄和红葡萄酒总共129 个芳香物质中,提取出 10个主要成分;从白葡萄和白葡萄酒的芳香物质中提取了11 个主要成分,经过多元回归分析之后计算的相应参数见下表。表 16:多元线性回归的相关参数表相关参数红葡萄不考虑芳香物质红葡萄考虑芳香物质白葡萄不考虑芳香物质白葡萄考虑芳香物质剩余残差平方和eS51.7947 251.1910129.862 0.0346 回归平方和RS51.7947 252.01 10129.862 0.0346 复相关系数2R0.5 0.6261 0.5 0.5 由上表可以得到如下结果:(1)对红葡萄而言,在考虑芳香物质之后,其剩余残差平方和eS和复相关系数2R减小为 0。
49、因此不能仅仅的只用酿酒葡萄和葡萄酒的理化指标来对葡萄酒质量评估,还要考虑到其芳香物质。名师资料总结-精品资料欢迎下载-名师精心整理-第 19 页,共 23 页 -19(2)对白葡萄而言,在考虑芳香物质之后,其剩余残差平方和eS和复相关系数2R减小为 0,但是复相关系数保持不变,说明前后曲线的拟合相差无几。但是不能仅仅的只用酿酒葡萄和葡萄酒的理化指标来对葡萄酒质量评估,还要考虑到其芳香物质。5.模型的评价6.1 模型的优点(1)在解决问题(1)时,对显著性的分析细致到样品酒,虽然工作量比较大,但是得出的结果更为详细;在求解可信度是时,通过两种方法(信度分析法和标准差法)综合对结果的可信度进行分析
50、,提高了分析的准确性,更具有说服力。(2)对众多指标中提取有效成分时,综合运用了相关性分析、主成分分析的统计学方法在原始的指标中提取出主要的成分,方便后续的计算。(3)在对葡萄酒质量的得分中,没有采取传统的求平均值的方法,而是用灰色数据融合算法,不但充分利用这些信息,而且又不会对结果造成决定性的影响。(4)在第(3)问的计算中,使用了BP 神经网络,大大减小了运算分析的时间,使得求解过程简单易行。6.2 模型的缺点(1)在用相关性分析和主成分分析之后,使得原始的指标数据存在缺失,不能完全反映事物的全部性质,会导致最终计算的结果存在误差。(2)在使用 BP 神经网络的时候,虽然大大减小了运算分析