葡萄酒质量评价的多元统计分析模型.docx

上传人:修**** 文档编号:6008216 上传时间:2022-01-28 格式:DOCX 页数:35 大小:290.17KB
返回 下载 相关 举报
葡萄酒质量评价的多元统计分析模型.docx_第1页
第1页 / 共35页
葡萄酒质量评价的多元统计分析模型.docx_第2页
第2页 / 共35页
点击查看更多>>
资源描述

《葡萄酒质量评价的多元统计分析模型.docx》由会员分享,可在线阅读,更多相关《葡萄酒质量评价的多元统计分析模型.docx(35页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、2012高教社杯全国大学生数学建模竞赛承 诺 书我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,

2、在书籍、期刊和其他媒体进行正式或非正式发表等)。我们参赛选择的题号是(从A/B/C/D中选择一项填写): A 我们的参赛报名号为(如果赛区设置报名号的话): 13224010 所属学校(请填写完整的全名): 湖北科技学院 参赛队员 (打印并签名) :1. 黄磊 2. 李晓香 3. 刘勇为 指导教师或指导教师组负责人 (打印并签名): 钟绍军 周志明 日期: 2012 年 9 月 10 日赛区评阅编号(由赛区组委会评阅前进行编号):2012高教社杯全国大学生数学建模竞赛编 号 专 用 页赛区评阅编号(由赛区组委会评阅前进行编号):赛区评阅记录(可供赛区评阅时使用):评阅人评分备注全国统一编号(由

3、赛区组委会送交全国前编号):全国评阅编号(由全国组委会评阅前进行编号):葡萄酒质量评价的多元统计分析模型摘 要葡萄酒质量评价通常是根据评酒师的感官指标得分进行评价的,这种方法有很强的主观性,很难得到一个较为可信的结论。通过对酿酒葡萄和葡萄酒的理化指标进行检测并据此进行葡萄酒质量的评价,已经逐步被社会所采纳。本文针对给定的酿酒葡萄和葡萄酒的理化指标,综合应用统计分析的基本方法研究了理化指标之间的因果关系,得出了通过理化指标进行葡萄酒质量鉴定的一般方法。问题一,评酒员给出的分数主要受到葡萄的品种、样本个体差异、不同组别、不同评酒员等因素的影响。我们分别用每个评酒员对外观、香气、口感、整体评价和总分

4、五个指标对上面四个主要因素进行方差分析,找出评酒分数差异的主要来源,从而可以判断两组评酒员之间是否有显著性差异。结果显示两组评酒员在总分上没有显著性差异,但四个分指标均有显著性差异。通过对数据稳定性和灵敏性两个方面对两组评酒员的评分进行分析可知:两组间不存在系统偏差,但第二组的方差波动较小,因此更加可信。问题二,酿酒葡萄质量的优劣可以从葡萄酒的品质中得到体现。由于所涉及变量较多,本文分别对酿酒葡萄的理化指标和芳香物质采用因子分析法,选取主要因子,结合评酒员的质量得分,应用聚类分析法对葡萄样品进行聚类。我们将红葡萄分成了四级、白葡萄分成了三级,同时给出了根据葡萄酒的得分进行分级的标准,具有很强的

5、可操作性。问题三,酿酒葡萄与葡萄酒的理化指标之间的联系属于多个变量与多个变量之间的关系问题。由于它们之间存在明显的因果关系,因此首先应用多元线性回归模型研究了葡萄酒的每一个理化指标对葡萄的理化指标的依赖关系,找到了显著影响的因素。针对变量间存在的复杂的相关关系和因果关系的问题,本文重点采用典型相关分析模型,找出了两组理化指标之间的典型相关变量。本文先将红、白葡萄样品分开,分别进行典型相关分析,然后又将它们综合为一个大样本进行分析。结果显示,两组理化指标相关程度很高,并且找到了最相关的理化指标组合。问题四,酿酒葡萄和葡萄酒的理化指标都对葡萄酒的质量有直接的影响,而且酿酒葡萄和葡萄酒的理化指标之间

6、还存在因果关系。本文分别对红葡萄、白葡萄和总葡萄样本数据建立了通径分析模型,找到了对葡萄酒质量有重要影响的各级理化指标,并计算了它们对葡萄酒质量的直接影响、间接影响和总影响程度。同时,本文结合主成分回归法还得到了葡萄酒的质量关于这些重要影响理化指标的回归方程,并对葡萄酒样品的质量进行了预测。通过误差分析显示,我们的预测标准误差平均不超过3分,平均相对误差控制在0.27%以内,拟合效果较好。说明本文的方法可以根据葡萄和葡萄酒的理化指标来评价葡萄酒的质量,且效果良好。本文综合应用了因子分析、主成分回归和典型相关分析研究了多组变量之间的各组关系,对揭示数据背后的本质因果关系规律有较强的实用性。通过建

7、立通径分析模型,很好的解决了多个变量间存在的相互影响和制约的依赖关系,通过较少的几个主要理化指标变量可以很好的预测酒的质量,具有一定的创新性和实践指导意义。关键词:葡萄酒质量评价;典型相关;通径分析;因子分析.1 前言葡萄酒作为一款由新鲜葡萄或葡萄汁经发酵酿成的酒精饮料已走入越来越多的家庭中,同时人们对于葡萄酒的质量、鉴赏、评价也提出越来越严格的标准。现今在确定葡萄酒质量时,通常是通过聘请一批有资质的评酒员对葡萄酒进行品尝后,对其各分类指标打分,所得总分的高低直接决定该葡萄酒的质量。已知酿酒葡萄的好坏与所酿葡萄酒的质量有直接关系,葡萄酒和酿酒葡萄检测的理化指标也会在一定程度上反映葡萄酒和葡萄的

8、质量。2 问题重述已知某年份两组评酒员对同一批红葡萄酒和白葡萄酒的感官评价结果,测定了这批葡萄酒和酿酒葡萄的各自成分数据,现尝试建立数学模型拟解决以下问题:1、 两组评酒员的评价结果有无显著性差异,分析哪一组更加可信;2、 根据酿酒葡萄的理化指标和葡萄酒的质量,对样本葡萄进行分级;3、 分析酿酒葡萄与葡萄酒的理化指标之间的联系;4、 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并讨论能否用葡萄和葡萄酒的理化指标来评价葡萄酒质量。3 模型假设1、每一位评酒员都根据自己的经验和标准进行独立的判断,即每一位评酒员对于葡萄酒的评判不受其他评酒员的影响;2、所给样本的酿酒工艺是一样的,即葡萄酒的每

9、个样本的品质不受酿酒工艺的影响;3、给出的样本数据具有同一性,即第i个葡萄酒样品是由第i个酿酒葡萄样本酿制而成,并且理化指标和芳香物质的测定也是针对同一样本来源,两组评酒师都是对相同的样本进行评价;4、忽略所在检测地点地理环境、自然环境等对于所检测数据的影响。4 符号说明:对葡萄酒评判时基础得分;:为不同的评酒师团队的效应,第一组记为1,第二组记为2,;:表示第个酒的样本,红酒分别为1-27,白酒为28-55,;:表示第个评酒师,第一组为1-10,第二组为11-20,;:表示第组的第个评酒师对第个葡萄酒的样本的评分;:表示葡萄酒的理化指标旋转后的主因子;:表示酿酒葡萄的理化指标旋转后的主因子;

10、q:表示通径系数。5 问题分析葡萄酒通常分为红葡萄酒和白葡萄酒两个品种,评酒员一般根据外观分析、香气分析、口感分析、整体评价四个感官指标来评价葡萄酒的质量。一般来说,葡萄酒含有花色苷、单宁、总酚等理化指标,酿酒葡萄中含有氨基酸、蛋白质、VC含量等理化指标,各葡萄及葡萄酒的芳香物质也均对葡萄酒的评价有影响。因此,对葡萄酒评价方案的的研究对推进葡萄酒的鉴赏、收藏,提高人们生活质量有深远的影响。在酿酒的过程中,酿酒葡萄的化学芳香物质、理化指标等决定或影响着葡萄酒的各项理化指标和芳香物质,从而决定着葡萄酒的品质。题目要求我们根据给定的27个红葡萄样品和28个白葡萄样品及其酿酒的理化指标、芳香物质等数据

11、资料,分析这些变量之间的关系,找出决定葡萄酒品质的主要因素。下面我们首先对题目给出的四个问题及其求解思路进行简要的分析:1、问题一要求判断两组评酒员的评价结果是否有显著性差异,显然是一个假设检验的问题。由于评酒员给出的分数主要受到葡萄的品种、样本个体差异、不同组别、不同评酒员等因素的影响,我们可以用每个评酒员的总分对这四个主要因素进行方差分析,就可以找出评酒分数差异的来源,从而可以判断两组间是否有显著性差异。当然,我们还可以从外观、香气、口感和整体评价这四个感官指标的角度考虑,看各分指标在两组间是否有差异。对于可信性的分析,一般来说要从数据的稳定性和灵敏性两个方面进行求解。没有系统偏差的肯定比

12、有系统偏差的更可信,同等条件下随机误差小的更加可信。本文将从这两个方面进行综合分析。2、问题二要求根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。由于葡萄酒的种类和品质很多,不同国家和地区对它们的分级和分类的方法也有很大差异,很难找到一个统一的标准进行分类1。针对题目给出的数据,我们认为,在相同的生产条件下,葡萄酒的质量应该主要由酿酒葡萄的品质决定。糖、酸、单宁、色素和芳香物质是构成酿葡萄品质优劣的要素5。水和糖是葡萄的最主要成分,这是葡萄能在酵母作用下发酵成葡萄酒的物质基础。葡萄中酸的含量对葡萄酒的影响也很大。单宁和色素对红葡萄酒的特色和风味作用也是显著的。尽管单宁、色素和芳香物质在

13、整个葡萄的物质构成中所占比例非常的小,但它们对葡萄酒的特色和风味有着非常显著的贡献。因此,对葡萄的分级就需要从葡萄的理化指标、葡萄的芳香物质入手,结合它们酿成的酒的质量(可以用评酒员的评分来表示),应用因子分析的方法来进行综合评价。由于红葡萄和白葡萄的成分和评价标准的差异,我们需要对它们分别进行计算和处理。本文分别对葡萄的理化指标、葡萄的芳香物质做因子分析,找到显著的主要因子,并根据方差贡献率得出各自的综合因子,结合葡萄酒质量的四个分指标进行聚类分析,从而完成分级。从后面的模型求解过程可以看出,得出的分级结果与评酒员给出的平均分的高低是一致的,说明这一方法是可行的。3. 问题三要求分析酿酒葡萄

14、与葡萄酒的理化指标之间的联系。从理论上来说,葡萄酒的理化指标是有酿酒葡萄来决定的,现在的任务就是从给出的数据中来找出这种决定关系,分析它们之间联系的具体形式。通过观察我们发现,葡萄酒的理化指标都可以在酿酒葡萄中找到相同或相似的变量。由于这两组变量之间存在一定的因果关系,一个最简单的办法就是建立多元线性回归模型,其中自变量和因变量都是多元的。但是这个模型的计算规模是庞大的,并且变量过多,无法求解出未知参数的估计。本文采用典型相关分析来解决这个问题,找出这两组变量的典型相关变量,从而说明它们之间的内部联系。本文先将红、白葡萄分开来进行典型相关分析,然后又将它们综合起来进行分析。结果显示,两组变量的

15、相关程度很高。4. 问题四要求分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用理化指标来评价葡萄酒的质量。应该来说,酿酒葡萄和葡萄酒的理化指标都对葡萄酒的质量有直接的影响。但是,酿酒葡萄和葡萄酒的理化指标之间存在因果关系,酿酒葡萄的理化指标通过葡萄酒的理化指标还存在间接的影响。因此一般的线性回归模型就无法解决他们之间的相互依赖关系,我们考虑用通径分析模型来解决这个问题。本文后面的模型建立和求解过程给出了详细的模型建立和求解过程。6 异常数据的处理与说明通过观测,我们发现了题目给出的数据有两个地方存在异常:1. 附件1中,“第一组红葡萄酒品尝评分”表中第20号酒样品的第4个评酒员对

16、“外观-色调”的评分是缺失的;2. 附件1中,“第一组白葡萄酒品尝评分”表中第3号酒样品的第7个评酒员对“口感-持久度”的评分是77分,而该项的满分只有8分。我们认为这是数据录入时的错误,怀疑是7分的可能性较大。本文后面的计算过程中,我们将此处数据视为7来进行计算。下面我们需要对缺失的数据进行补充。本文应用插值拟合预测的方法,得到分数的预测值为6。7 模型的建立与求解7.1 问题一:两组评酒员的评分显著性差异分析影响感官评价得分的因素有很多:酒的颜色(种类)、不同的评酒师、不同的样本、不同组、随机因素等。为了分析不同组的评酒员的是否有显著性差异,我们可以建立多因素方差分析模型: (1)其中:为

17、一般平均,可以理解为基础得分; 为不同的评酒师团队的效应,第一组记为1,第二组记为2,;表示第个酒的样本,红酒分别为1-27,白酒为28-55,;表示第个评酒师,第一组为1-10,第二组为11-20,;式(1)中的表示第组的第个评酒师对第个葡萄酒的样本的评分,它可以是单项的分数,也可以表示总分,这要根据具体的研究对象而定。两组有无显著性即要进行下面的假设:,: (2)我们先从总分上看两组是否有显著性差异,然后在从外观、香气、口感、整体评价这4个分指标来进行检验。7.1.1 两组的总分进行方差分析以来表示第组的第个评酒师对第个葡萄酒的样本的总评分,用SPSS13.0进行多因素方差分析,得到方差分

18、析表(如表1所示)。表1 样品总分的多因素方差分析由表1不难看出,不同酒样品之间和不同的评酒师之间均有显著性差异,而两组评酒员之间的显著性为0.962,非常不显著。因此无法拒绝式(2)的原假设,我们认为两组评酒员的总分评价没有显著性差异。7.1.2对分指标进行方差分析下面我们再从外观、香气、口感、整体评价这四个分指标上看两组评酒员的评价结果是否有显著性差异。依次令表示第组的第个评酒师对第个葡萄酒的样本的外观、香气、口感、整体评价的总得分,分别进行差异分析(如表2-表5所示)。表2 样品外观的多因素方差分析表3 样品香气的多因素方差分析表4 样品口感的多因素方差分析表5 样品整体评价的多因素方差

19、分析由表2-表5不难看出,它们都有一个共同的结论:外观、香气、口感和整体评价的得分,在不同酒样品之间、不同的评酒师之间和两个组之间均有显著性差异。因此四个分指标的方差分析均要拒绝式(2)的原假设,我们认为两组评酒员对外观、香气、口感和整体评价的评价结果均有显著性差异。这说明不同的评酒员都有自己的评判标准和偏好,对不同的指标看法不一,但对于总体的评价却是英雄所见略同。7.1.3进一步对差异来源分析下面可以进一步分析造成上述的具体差异来源,首先计算两组样品各组间差(如附表1所示)。下面分别对两组评酒员在外观、香气、口感和整体评价上的平均分之差做“均值是否为零”的假设检验。我们采用T检验法,应用SP

20、SS13.0软件得到检验结果如表6所示。表6 两组评酒员在四个分指标上的评价均分之差的T检验结果由表6可知,在显著性水平为0.1的情况下,总体组间差、外观组间差均不显著,而其余指标是显著的。在香气评价上,第一组得分显著高于第二组;而口感和整体评价上,第一组显著低于第二组。第一组评酒员在外观、香气上高于第二组,但在口感和整体评价上低于第二组,这就使得他们在评价的总分上产生的差异相互抵消,导致总分没有显著性差异。表7 两组评价员在各项指标上的评价平均分差异性感官指标显著性差异情况外观无第一组 第二组香气有第一组 第二组口感有第一组 第二组整体评价有第一组 第二组总分无说明:上面7.1.2中分析的结

21、果显示外观在两组间有显著性差,而此时却没有差异。造成这一结果的原因在于我们选取影响变量的方法不同。前面7.1.2中我们将普通的不同颜色(红、白)作为一个影响因素考虑,而这里我们做平均分之差后就可以不再考虑颜色的不同了。7.1.4哪一组更可信对于可信性的分析,一般来说要从数据的稳定性和灵敏性两个方面进行求解。没有系统偏差的肯定比有系统偏差的更可信,同等条件下随机误差小的更加可信。本文将从这两个方面进行综合分析。先考察系统偏差。由于每项指标的真实分数无法得到,评酒员的评分一般都带有一定的主观性。但是,根据大数定理,无穷多个评酒员的评分的数学期望是真实分数的一个优良估计。因此,每项指标的真实分数可以

22、用两组共20个评酒员的平均值得到。第一步:计算每个样品的20个评酒员的平均分;第二步:计算每组评酒员对每一个样品的每个指标的平均分;第三步:计算第一步的平均分相对于该指标的真实值的偏差,即可看做系统偏差。通过MATLAB整理数据,用EXCEL软件计算得到两种葡萄酒的真实评分(如附表2所示)。两组的各个指标的系统偏差(如表8所示)。表8 系统偏差计算表外观香气口感整体评价总分第一组0.1218180.284545-0.35545-0.06182-0.01091第二组-0.12182-0.284550.3554550.0618180.010909从表8不难看出,每项指标的系统偏差在两组之间刚好都互

23、为相反数,也就是说两组各项指标偏高与真实值的程度相同。换句话说,两组评酒员的系统偏差是一样的。因此从系统的变差角度无法看出那一组的评分更加可信。下面再来考虑随机误差的因素。波动较小的组更加稳定可靠。数据的波动可以方差来度量,对不同的样品,分别计算各组不同评酒员的总分的方差(如附表3所示)。再对两组的方差做方差分析,用EXCEL软件计算得到结果(如表9所示)。表9 两组评酒员总分的方差分析表由表9可知:两组方差有显著性差异,第二组各样本评价方差的平均值为45.11,小于第一组的评价方差的平均值88.84,故第二组评酒员评分的随机误差更小,所作出的结论更加可信。7.2 问题二:应用聚类分析法对酿酒

24、葡萄进行分级根据前面的分析,我们用所有评酒员的平均分作为每个葡萄酒样品的质量评价。现在对酿酒葡萄进行分级。根据文献5的结论,芳香物质在整个葡萄的物质构成中所占比例非常小,但它们对葡萄酒的特色和风味有着非常显著的贡献。因此研究酿酒葡萄的分级问题时,必须同时考虑葡萄的理化指标和芳香物质成分。从数据文件中看出,酿酒葡萄的一级理化指标有30个变量、二级指标有56个变量,酿酒葡萄的芳香物质一级指标有9个变量、二级指标有15个变量,因要考虑的变量太多,且各变量间有较强的相关性,故需要对数据进行必要的简化。一个成熟的办法就是采用因子分析,用较少的因子变量来代替原来变量的信息,达到缩减变量的目的。由于不同葡萄

25、酒的成分和评价标准存在差异性,我们将对红葡萄和白葡萄分别进行分级研究。7.2.1 红酿酒葡萄的理化指标和芳香物质的因子分析首先对红酿酒葡萄的理化指标进行因子分析,选取30个一级指标参与运算。应用SPSS13.0软件,得到累计方差贡献率(如表10所示)。表10 红酿酒葡萄理化指标的累计方差贡献率从表10中不难看出,前11个主因子的累计方差贡献率超过90%,因此选取11个主因子比较合适。不妨记主因子变量分别为f1,f2,f11。根据旋转之后的因子载荷矩阵(见附表11),按照因子载荷的大小可以对原始的变量进行分类(如表12所示)。表11 红酿酒葡萄的理化指标的因子载荷矩阵变量编号理化指标f1f2f3

26、f4f5f6f7f8f9f10f11x1氨基酸总量0.10 0.65 -0.19 -0.02 -0.26 0.00 0.43 0.18 -0.36 0.04 -0.01 x2蛋白质0.61 -0.26 -0.22 -0.04 -0.04 0.40 0.22 0.31 0.17 -0.03 0.16 x3VC含量-0.06 -0.31 -0.03 0.04 -0.02 -0.02 0.09 -0.17 -0.14 0.88 0.00 x4花色苷鲜重0.63 0.05 0.60 -0.16 -0.08 0.18 0.18 0.06 0.12 -0.01 0.21 x5酒石酸0.22 0.10 -0

27、.25 0.09 -0.16 0.24 0.06 0.79 -0.13 -0.15 0.09 x6苹果酸0.07 0.14 0.92 0.19 -0.16 0.01 -0.02 0.01 0.06 -0.07 0.08 x7柠檬酸-0.05 0.01 0.39 0.16 -0.04 0.06 0.10 0.83 0.13 -0.05 -0.04 x8多酚氧化酶活力0.01 0.14 0.34 -0.21 0.06 0.00 0.21 0.02 0.79 -0.17 -0.01 x9褐变度0.23 -0.08 0.73 -0.14 -0.16 0.12 0.28 0.09 0.38 0.14 -

28、0.07 x10DPPH自由基0.90 -0.16 -0.03 0.03 0.00 0.17 0.29 0.00 0.04 -0.05 0.03 x11总酚0.91 0.15 0.12 -0.15 -0.14 0.17 0.13 -0.02 -0.07 -0.08 -0.01 x12单宁0.79 0.11 0.26 -0.17 -0.03 -0.19 0.13 0.20 0.07 0.28 -0.09 x13葡萄总黄酮0.94 0.03 0.01 -0.06 0.01 0.07 0.03 -0.02 -0.08 -0.10 -0.02 x14白藜芦醇苷0.07 -0.17 -0.06 0.86

29、 -0.23 0.18 0.21 0.04 0.03 0.20 -0.08 x15黄酮醇0.25 0.19 0.07 0.02 0.04 0.03 0.88 0.13 0.12 0.05 -0.03 x16总糖0.04 0.93 -0.03 0.07 -0.12 0.05 -0.05 -0.05 0.09 -0.06 0.03 x17还原糖-0.25 0.69 0.05 0.06 -0.05 -0.04 0.14 -0.02 -0.05 -0.25 0.49 x18可溶性固形物0.06 0.94 0.09 -0.08 -0.02 -0.05 -0.07 -0.03 0.04 -0.07 -0.

30、16 x19PH值0.31 0.08 -0.44 -0.02 -0.03 0.70 0.03 -0.08 -0.19 0.18 0.14 x20可滴定酸-0.11 0.37 -0.06 -0.12 0.13 -0.83 -0.12 -0.12 -0.15 0.05 0.01 x21固酸比0.10 0.11 0.31 0.06 -0.02 0.84 -0.03 0.20 -0.01 -0.07 -0.13 x22干物质含量0.05 0.90 0.13 0.01 -0.14 -0.14 0.04 0.18 0.08 -0.10 0.19 x23果穗质量-0.06 -0.27 -0.15 -0.05

31、 0.83 0.19 -0.16 0.08 0.06 0.00 0.11 x24百粒质量-0.10 -0.23 -0.12 -0.12 0.79 -0.13 -0.14 -0.31 -0.22 -0.09 -0.01 x25果梗比0.27 -0.19 0.17 -0.10 -0.36 0.08 0.75 0.00 0.11 0.05 0.02 x26出汁率0.62 0.09 0.04 -0.13 0.03 0.07 -0.18 0.00 0.17 0.36 0.52 x27果皮质量0.01 0.01 -0.05 -0.22 0.87 -0.24 0.06 -0.05 0.17 0.06 -0.

32、17 x28L-0.40 -0.33 -0.30 0.24 0.19 0.21 0.03 -0.21 0.20 0.03 -0.51 x29a-0.27 0.00 -0.04 0.92 -0.12 0.02 -0.10 0.02 -0.07 -0.04 -0.06 x30b-0.17 0.21 0.23 0.84 -0.01 -0.02 -0.18 0.21 -0.18 -0.13 0.06 表11中,用黄色标出的部分表示该指标在相应主因子上有较大载荷。可以按照这个方法把原始30个变量分成11类。类似的,我们对红酿酒葡萄的芳香物质做因子分析,得到累计方差贡献率表(如附表4所示)。选取前4个主因

33、子可以使得累计方差贡献率超过90%,得到旋转之后的因子载荷矩阵(如附表5所示)。7.2.2 红酿酒葡萄的分级的聚类分析现在,我们通过因子分析得到了红酿酒葡萄的理化指标的11个主因子和芳香物质的4个主因子,再结合所酿制的葡萄酒的四个感官指标(外观、香气、口感、整体评价)的质量评分。下面用这11+4+4=19个变量,对27个红酿酒葡萄样品做聚类分析。我们采用系统聚类法,组间距采用离差平方和法(Walds)计算,应用SPSS13.0软件可以得到聚类的谱系图(见图1)。图1 红酿酒葡萄的聚类分析谱系图从图1可以看出,27个红葡萄样品分成四类比较合适。对比各样品所酿制的葡萄酒的总分的排名,分成四类的结果

34、可以成功的将不同级别的葡萄分开,效果较好。具体分类结果如表12所示。表12 红葡萄的分级结果红葡萄样品编号总分聚类结果红葡萄样品分级2381.3521979.8521377.5212077.521277.15211776.9321975.6322474.75322174.65322274.4322672.9321472.832572.7321672.4322772.25321371.7321071.513469.913669.2513869.15132568.713768.4131165.8513165.4131862.75441562.2441261.144由此,我们可以根据葡萄酒的总得分,

35、对所使用的酿酒葡萄的四个级别进行划分,具体如表13所示。表13 根据红葡萄酒的得分对所用葡萄分类标准红葡萄酒总得分红葡萄等级77分1级71.5分总得分77分2级65分总得分71.5分3级总得分65分4级7.2.3 白酿酒葡萄的分级仿造上面的处理过程和方法,我们可以对白酿酒葡萄的分级。由于篇幅的限制,本文就不再赘述(主要计算过程见附表6-9),最终的分类标准如表14所示。表14 根据白葡萄酒的得分对所用葡萄分类标准白葡萄酒总得分白葡萄等级76分1级74分总得分76分2级总得分74分3级7.3 问题三:酿酒葡萄与葡萄酒的理化指标之间联系通过观察我们发现,葡萄酒的理化指标都可以在酿酒葡萄中找到相同或

36、相似的变量。由于这两组变量之间存在一定的因果关系,一个最简单的办法就是建立多元线性回归模型,其中自变量和因变量都是多元的。但是这个模型的计算规模是庞大的,并且变量过多,无法求解出未知参数的估计。本文用葡萄酒的每个理化指标对酿酒葡萄的理化指标分别作多元线性回归,找到显著相关的变量。用回归分析是一种思路,但是还不能全面分析两组理化指标的整体之间的联系。本文采用典型相关分析来解决这个问题,找出这两组变量的典型相关变量,从而说明它们之间的内部联系。本文先将红、白葡萄分开来进行典型相关分析,然后又将它们综合起来进行分析。由于理化指标的变量太多,我们仍然采用因子分析方法选取主要因子参与典型相关分析运算。前

37、面第二问已经对酿酒葡萄的理化指标进行了因子分析处理,现在只需要对葡萄酒的理化指标做因子分析。7.3.1 对葡萄酒的理化指标做因子分析先对红葡萄酒的理化指标进行因子分析。我们仍然选取9个一级指标变量参与运算,通过分析累计方差贡献率表不难看出,选取前4个主因子可以使得累计方差贡献率达到90%以上。旋转后的因子载荷矩阵如表15所示。表15 红葡萄酒的理化指标旋转后的因子载荷矩阵s1s2s3s4花色苷0.90-0.12-0.08-0.32单宁0.900.19-0.230.06总酚0.900.34-0.220.02酒总黄酮0.830.34-0.250.01白藜芦醇0.240.910.190.09DPPH

38、半抑制体积0.850.42-0.210.09L-0.94-0.04-0.26-0.06a-0.180.160.930.18b0.000.080.160.98类似的可以得到白葡萄酒的因子分析结果:表16 白葡萄酒的理化指标旋转后的因子载荷矩阵s1s2s3s4单宁0.91-0.070.20-0.08总酚0.86-0.130.38-0.05酒总黄酮0.330.030.880.06白藜芦醇-0.110.040.020.96DPPH半抑制体积0.910.050.00-0.05L-0.040.95-0.090.16a0.050.610.54-0.41b0.08-0.98-0.110.067.3.2 两组理

39、化指标的相关分析与回归分析现在根据因子分析,我们得到了葡萄和葡萄酒的主要因子。各主要因子按照其方差贡献率的大小进行加权平均得到一个理化因子的综合得分,不妨分别记为ff和ss。有了这个综合得分,我们就可以分析葡萄和葡萄酒的相关性了。只需要计算ff和ss的Pearson相关系数,用SPSS计算得到相关系数为0.472,是显著相关的。图2 两组理化指标的主因子加权平均值的相关分析从简单来看,红酿酒葡萄与红葡萄酒理化指标是有显著相关关系的。但是,这种相关性是十分复杂的,仅仅用这个简单相关系数完全不能说明它们的关系。下面我们分别用葡萄酒的每个理化指标作为因变量,对酿酒葡萄的理化指标逐一进行逐步回归,找出

40、显著相关的变量。将红、白两种葡萄的数据合在一起,应用SPSS软件进行逐步回归,得到9个回归方程(变量的对应关系见附表11):y1=2.338*x4- 3.472*x26 +6.324*x6 +219.469y2=0.098*x12+0.149*x28+0.145*x11+0.001*x1+0.01*x4+5.181y3=-0.111*x28+0.016*x4-0.062*x26+0.278*x13+8.614y4=0.404*x11+0.001*x9-0.368*x25-0.224y5=0.369*x13-0.151*x28-0.011*x2-0.167*x6+10.623y6=0.012*x

41、11+0.006*x12+0.001*x16-0.193y7=3.394*x28-0.155*x4+2.049*x29-0.162*x15-27.999y8=-2.002*x30-3.146*x29-2.924*x28-0.08*x4-0.032*x24+1440321y9=-1.2831*x28+0.09*x17+34.171上式中变量的对应关系见附表11。与葡萄酒的每个理化指标的显著相关的变量如表17所示。表17 两组理化指标之间存在显著因果关系的变量表葡萄酒的理化指标酿酒葡萄的理化指标(显著相关的)花色苷花色苷鲜重、出汁率、苹果酸单宁单宁、L、总酚、氨基酸、花色苷鲜重总酚L、花色苷鲜重、

42、出汁率、葡萄总黄酮酒总黄酮总酚、褐质变、果梗比白藜芦醇葡萄总黄酮、L、蛋白质、苹果酸DPPH半抑制体积总酚、单宁、总糖LL、花色苷鲜重、a、黄酮醇ab、a 、L 、花色苷鲜重、百粒质量bL、还原糖7.3.3 两组理化指标的典型相关分析模型以上我们用逐步回归的办法分析了酿酒葡萄的理化因子如何决定葡萄酒的理化因子,但是是分开来进行的,实际的关系应该是交错的、复杂的。下面采用典型相关分析来解决这个问题,找出这两组变量的典型相关变量,从而说明它们之间的内部联系。典型相关分析的基本思想9:首先,在每组变量中找出变量的一个线性组合,使得两组的线性组合之间具有最大的相关系数,然后选取相关系数仅次于第一对线性组合且与第一对线性组合最不相关的第二对线性组合,如此继续下去,直到两组变量之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数,而典型相关系数就度量了两组变量之间

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 标准材料 > 食品加工

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁