葡萄酒的分析评价问题.pdf

上传人:asd****56 文档编号:69694070 上传时间:2023-01-07 格式:PDF 页数:38 大小:532.12KB
返回 下载 相关 举报
葡萄酒的分析评价问题.pdf_第1页
第1页 / 共38页
葡萄酒的分析评价问题.pdf_第2页
第2页 / 共38页
点击查看更多>>
资源描述

《葡萄酒的分析评价问题.pdf》由会员分享,可在线阅读,更多相关《葡萄酒的分析评价问题.pdf(38页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、1葡萄酒的分析评价问题宋闯宋闯(光信息科学与技术光信息科学与技术 1007412610074126),),阳宁凯阳宁凯(信息管理与信息系统信息管理与信息系统 1003410510034105),),葛利葛利(信息安全信息安全 1008420510084205)摘 要本文根据所给数据建立了多种相关统计分析评价模型,对葡萄酒及酿酒葡萄的若干问题进行了分析与评价。对于问题一,首先我们采取两配对样本 T 检验评价显著性水平050.=下两组评酒员的差异性,在 SPSS 18.0 18.0 中对两组评酒员进行差异性检验,最后得到两组评酒员的评价结果具有显著性差异的结果。然后对两组评酒员的评价进行信度分析与

2、效度分析,这两个指标分别衡量前后评价的一致性和稳定性以及结果正确性,最后通过数据比较分析得到结论:二组评酒员比一组评酒员更可信。之后题目所用数据将全部采用二组评酒员的数据。对于问题二,本文首先建立了剔除了异常值的评分控制模型。然后根据评酒员评分区分度,建立权重确立模型,最后综合分析得到了更为合理的葡萄酒质量分数。对于酿酒葡萄的分级,我们对酿酒葡萄的各指标利用 SPSS 18.0 软件进行了聚类分析,每一聚类代表同一类指标;然后建立主成分分析模型,对每个聚类提取主成分,构造出新的主成分集合,最后再引入葡萄酒质量指标,建立综合评价模型,对酿酒葡萄进行综合评分,并按照划分区间给出分级,该过程采用 M

3、ATLAB 2011b 实现。通过对比分析,发现好的葡萄酒其原料一定也是优级的,但是优级的葡萄不一定能酿造出优级的葡萄酒。该模型最大的特色在于将聚类分析与主成分分析结合,构造了新的综合指标,既达到了多指标降维的目的,又体现了聚类指标的差异性。另外,其数据处理方面,本文还对特殊指标进行单独分析,利用模糊理论的知识对特殊指标进行赋值。对于问题三,我们建立灰色关联度模型,定量分析酿酒葡萄和葡萄酒的理化指标之间的关系。首先,通过 MATLAB 软件对酿酒葡萄的理化指标与葡萄酒理化指标进行灰色关联分析,得到其灰色关联矩阵;然后,通过对比灰色关联度的大小,筛选出对单个葡萄酒指标影响最主要的酿酒葡萄指标;最

4、后,计算出每个葡萄酒指标和对其有主要影响的酿酒葡萄指标的多元线性回归方程组,定量描述两者之间的关系;模型拓展部分,我们在葡萄酒指标和酿酒葡萄指标聚类分析的基础上,研究了二者类与类之间的关系,得出相关度最大和最小的葡萄酒指标类簇与酿酒葡萄指标类簇。对于问题四,本文首先采取多元线性回归模型分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响。采取附表 1 中评价葡萄酒质量的 4 个一级指标(外观因素、香气因素、口感因素、整体因素),得到 4 个关于葡萄酒质量的多元线性回归方程,最后通过 F 检验衡量回归方程的显著性水平。以红葡萄酒为例,检验到红葡萄酒的理化指标主要是和决定红葡萄酒质量的口感因素和整体因

5、素有一定的关联性,然后用多元线性方差来表示与理化指标间的关系;接下来我们对附件 3 中葡萄酒的芳香物质进行了分析与筛选,做出各个芳香物质与对应葡萄酒质量的相关系数,并对其相关系数进行排序并分析,得出以下结论:不能完全用葡萄和葡萄酒的理化指标评价葡萄酒的质量,芳香物质能参与到对葡萄酒质量评价当中。关键词:关键词:两配对样本 T 检验聚类分析主成分分析综合评价法灰色关联分析多元线性回归2一.问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标评分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和

6、酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件 1 给出了某一年份一些葡萄酒的评价结果,附件 2 和附件 3 分别给出了该年份这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题:1.分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二.问题假设1.假设所有样本的酿酒工艺一致;2.每种葡萄的生长环境常年相对不变,葡萄质量具有地域区

7、别性;3.评酒员抛开个人的喜好,排除时间、地点、环境和情绪等的影响,能够进行比较准确地感官分析;4.评酒员能够充分发挥主观能动性,将获得的感觉与大脑中贮存的感官质量标准进行比较分析;5.评酒员具备嗅觉的敏感性、品尝的准确性、表达的精确性等基本素质。三.问题一:数据的显著性差异检验与信度和效度分析3.1.显著性差异检验问题一要求分析两组评酒员的评价是否有显著性差异,并比较那一组的结果更可信。对于前者显著性检验问题,我们采取两配对样本 T 检验方法,该方法的目的是利用来自两列不同总体的配对样本数据推断两个总体是否存在显著性差异。但该样本数据必须具有两个要求:1、两组样本数量相同。2、两列样本观察值

8、顺序必须一一对应,不可随意更改。两配对样本 T 检验基本步骤:1.提出原假设。两配对样本 T 检验的原假设0H:两总体均值无差异性显著,表述为0H:0-21=,1和2分别为第一个和第二个总体的均值。2.选择统计量。两配对样本T检验采取 T 统计量,求出两组数据的差值作为统计样本,通过检验样本数据的均值是否显著性为 0 来推断两组数据是否具有显著性差异。3.计算检验统计量和 P 值。将两组样本数据输入 SPSS 18.0 18.0,计算出两配对样本 T 检验的 P 值。4.给定显著性水平,做出决策。给出显著性水平,与检验统计量 P 值做比较,如果 P 值小于,则拒绝原假设,认为两总体有显著性差异

9、,反之则不拒绝原假设,认为两总体没有显著性差异。3对附表 1 中记录的 10 个评酒员对红、白葡萄酒的 4 个项目评分数据进行整理,得到每个评酒员对每种葡萄酒样的质量评分期望,见附表 1,运用 SPSS 18.0 18.0 对红、白葡萄酒进行两配对样本 T 检验,结果见下表(表 1)表 1:两组评酒员对葡萄酒评价的两配对样本 T 检验结果成对差分tdfSig.(双侧)均值标准差均值的标准误差分的 95%置信区间下限上限对 1第一组红葡萄酒第二组红葡萄酒2.540745.371881.033820.415694.665792.458260.021对 2第一组白葡萄酒第二组白葡萄酒-2.27143

10、5.503861.04013-4.40560-0.13725-2.184270.038表 1 中,第二列是一、二两组评酒员对所有葡萄酒评分的平均差异;第三列是差值样本的标准差;第四列是均值的标准差;第五列和第六列分别是样本 95%置信区间的上限和下限;第七列是 T 检验统计量的观测值;第九列是 R 检验统计观测值对应的双尾概率 P 值,假设显著性水平=0.05,由于概率 P 值小于显著性水平,应拒绝假设,即人为两组评酒员的结果有显著性差异。3.2.对两组评价的信度和效度分析问题一要求找出对葡萄酒评价更可信的一组,我们通过信度和效度这两个指标来做定量分析。目前信度和效度概念在对问卷调查准确性和科

11、学性论证上运用的比较多,在对该题的评分信度可以借鉴这种方法。信度指调查结果所具有的一致性和稳定性程度,所谓一致性,是指同一调查项目调查结果的一致程度。所谓稳定性则是指前后不同的时间内,对相同受访者在不同时空下接受同样问卷调查时的差异程度。对于这题,可以将其当作对 10 个受访者(10 个评酒员)分别做了 27 个(红葡萄酒样本数)和 28 个(白葡萄酒样本数)问卷调查。效度通常是指测量结果的正确程度,即测量结果与试测目标之间的接近程度,就调查问卷而言,效度是值能够在多大程度上放映它所测量的理论概念。该题用 10 个评酒员的均值作为真实值,用来衡量各组评酒员与他的接近程度1。3.2.1.信度检验

12、检查信度的方法有多种,针对该题葡萄酒评分连续性的特点,我们选用基于方差分析的内部相关系数 ICC 来评价数据的信度。假定n对数据),(21iixx,ni.,2,1=,计算内部相关系数 ICC 的公式为:2n121)1()(xiiiSnxxxxICC=4一般来说,ICC 大于 0.75 表示该组数据的信度极好,ICC 在 0.60.75 表示该组信度较好。在不同模型假设下,ICC 得到不同的值,模型包括 3 种,(1)单因素随机效用模型。(2)两因素随机效用模型。(3)两因素混合效用模型。模型(2)适合于从一个无限大样本总体中随机抽取样本,统计推断要推广到该总体情况,适合问题一对两组评酒员的评价

13、信度检验。用 SPSS 18.0 18.0 软件在两因素随机效用模型下求解的内部相关系数 ICC 检验信度:表 2 两组对红葡萄就和白葡萄酒评分的内部相关系数内部相关性95%置信区间下限上限第一组红葡萄评分0.8620.7670.927第二组红葡萄评分0.9120.8530.954第一组白葡萄评分0.6970.4580.84第二组白葡萄评分0.7790.6330.883由表 2 得到结论:无论是对红葡萄还是对白葡萄的评分,第二组的内部相关性都要高于第一组,即第二组的信度比第一组的信度高。3.2.2.效度检验效度能是衡量测量有效性的一个重要指标,可以从 3 个不同角度衡量,分别为(1)内容效度。

14、(2)校标关联效度。(3)架构效度。由于该题没有牵涉到(1)、(2)两方面,我们就用校标关联效度来检验效度。校标关联效度是衡量测量结果和真实结果之间的一致性程度1。计算效度需要假定或定义一个有效的外在标准,我们定义对一种葡萄酒10 名评酒员的平均得分即为该葡萄酒的真实质量。该题中的葡萄酒评分为连续性变量,用 Pearson 相关系数来衡量校标关联效度,Pearson 相关系数是一种线性相关系数,用以放两反应个变量线性相关程度的统计量,)(niyxii.2,1,=两组数据的 Pearson 相关系数的数学表达式为:=2222)()(riiiiiiiiyyxxnyxyxn运用 SPSS 18.0

15、18.0 软件计算两组评酒员的 Pearson 相关,分别得分为:5两组评酒员的校标关联度两组评酒员的校标关联度红葡萄酒平均值白葡萄平均值一组葡萄红平均值Pearson 相关性0.963*一组白葡萄平均值Pearson 相关性0.884*显著性(双侧)0显著性(双侧)0N27N28二组红葡萄平均值Pearson 相关性0.867*二组白葡萄平均值Pearson 相关性0.641*显著性(双侧)0显著性(双侧)0N27N28*.在 0.01 水平(双侧)上显著相关通常情况下,相关系数r的取值范围在 1-0.8,表示极可信;取值范围在 0.6-0.8,表示很可信;取值范围在 0.4-0.6,表示中

16、等程度可信;取值范围在 0.2-0.4,表示不太可信;小于 0.4,即为不可信。两组评酒员对红葡萄酒的评价相关系数都大于 0.8,即他们对红葡萄就的评价结果都很可信,但一组评酒员的相关系数明显高于二组,所以一组评价结果比二组跟可信。对白葡萄酒的评价,一组评酒员评价结果落在极可信范围了,二组落在很可信范围内,所以对红葡萄酒的评价结果,二组比一组评价结果更可信。总体来说,二组的评酒员比一组评酒员更可信。四.关于葡萄酒质量评价评分数据的处理模型4.1.葡萄酒质量评分数据处理问题分析在第一问中,我们通过第一问中的信度和效度分析,论证了二组的评酒员的评价数据信度更高。但是由于评酒员自身的原因,对于二组内

17、 10 个评酒员对各指标的评分仍然存在偏差,这些偏差主要体现在评酒员评分的宽严程度差异和评酒员本身评分的一致性上2。目前常用的简单易行的方法是直接将评酒员评分计算加权平均数,或者是机械地先“去掉一个最高分,去掉一个最低分”,再计算其算术平均数。这样的方法并没有很好的利用数据,排除异常值由于评酒员的个人情感或者其他自身原因造成的异常。对于这样的情况,我们根据最终评分数据通过对有关指标的统计分析及其检验,选取指标并建立葡萄酒质量评价评分数据修正模型,对评酒员评分偏差导致的各种问题进行分析,得到了更加合理的能反映葡萄酒质量的数值。4.2.分析指标的选取对于评酒员的评分数据,我们主要考虑三个指标:1.

18、对于葡萄酒而言,其得分近似服从正态分布()2,?N3。2.评酒员的评分是否公平合理,对于该指标的衡量,我们将采用各种葡萄酒的得分偏差。3.评酒员的评分是否具有区分性,对于该指标的衡量,我们将采取各评酒员的评分区分度。64.3.第一步:评分控制,评分异常值的剔除首先我们在各种葡萄酒得分近似服从正态分布的原则下,利用 SPSS 18.018.0 统计分析了各种酒的 对应了每种葡萄酒的得分期望,对应了得分的方差,以 号葡萄酒为例,可知道其得分独立同分布,且都服从正态分布,其中,。在上述条件下,将作为其正常值判定区间,形象直观的排除异常值,直接将其异常值排除开。处理后的数据见:附录表格 24.4.第二

19、步:基于区分度控制下的权重确立模型2iij2ij)xx(y=为第j个评酒员在对第i种葡萄酒评分上的偏差平方=ni1ii2ijjyW为第j个评酒员的偏差系数i 为第i种葡萄酒的评分吻合度权重=ni1iiiixx,因为总平分的高低决定了葡萄酒胜出的可能性大小=ni1i2jij2j)xx(1n1S为第j个评酒员评分的样本方差=ni1iijjxn1x,该样本方差越大说明该评酒员的评分越容易区分j2jjWSSS=为第j个评酒员评分的区分度,该值的大小体现了区分性的高低)xxmin()xxmax()xx(m1Smj1j2iijj2jiij2iij2i=为葡萄酒i的有效方差=ni1ii2i2SS为系统评分方

20、差,即每种葡萄酒的有效方差的加权之和。研究每个评酒员的自身一致性问题,即该评酒员所作评分除了满足吻合度高外,同时也应该体现出高区分度。当然,如果所有葡萄酒的水平相当,则出现高区分度的可能性将大大降低。由区分度的定义:7jjjWSSS=2),2,1(mj=其中:2jS体现评酒员j自身评分的离散程度;而jW体现评酒员j评分的偏差程度。这样jSS就可以在满足吻合程度的前提下,体现评酒员j的区分能力。如果评酒员对所有种葡萄酒的评分比较集中在某个值附近,则必然导致2jS偏小,而jW偏大,最终导致区分度jSS的值将相对特别小。我们将根据其区分度对评酒员的评分权重给予修正。由于剔除异常值的影响,对于某些样品

21、,其评酒员数量不为 10 人,其权重将按其拥有的数据进行权重的重新确立。考虑到篇幅的原因,下表(表 3)仅给出第一组红酒的 10 人的权重:表 3 权重分配表第二组红评酒员 1评酒员 2评酒员 3评酒员 4评酒员 5评酒员 6评酒员 7评酒员 8评酒员 9评酒员 10评分区分度1.4423.2252.8210.6931.9492.2432.5572.7040.6920.583权重0.0760.1710.1490.0370.1030.1190.1350.1430.0370.031综合以上两部分内容,我们将建立去异值加权平均评价模型,用于合理给出各葡萄酒的质量得分。整个过程我们利用了 EXCEL

22、2007 进行数据的处理分析。对于修正前后的最后红葡萄酒与白葡萄酒综合评分详细对比如下:表 4 修正前后的红葡萄酒与白葡萄酒综合评分红葡萄酒样本原始期望修正得分原始排名现在排名白葡萄酒样本原始期望修正得分原始排名现在排名16362.69242418284.662228081.5242274.276.23131338081.4933385.385.411146967.42322479.480.845657373.77151657173.7232167270.761919668.467.27252677270.312020777.578.078987270.851818871.474.252220

23、98280.0426972.975.21717107475.3213131074.377.3212108117067.3921231172.374.831918125451.1727271263.365.292828137576.5912111365.966.992627147374.881615147274.652119155954.8626261572.475.211816167575.741112167475.991415177978.81581778.881.665186058.6725251873.176.31612197980.4641972.271.042024207979.13

24、772077.878.8178217778.621092176.478.84107227777.59910227173.192422238686.86112375.977.061111247880.2852473.372.041523256969.9522212577.176.15914267474.8814142681.383.5933277372.3517172764.868.2527252881.381.7644从以上数据看,剔除异常值后,以及利用新的评价模型,使得修正后的数据更加合理,排名部分发生了变化,尤其是对于排名靠后的样品。五.问题二:基于综合评价法的酿造葡萄分级模型5.1.问题

25、分析题目要求根据酿酒葡萄和葡萄酒的质量对这些酿酒葡萄进行分级,对于多指标评价中的排序问题,涉及到大量指标的处理,我们首先考虑到其指标具有相关性,于是想到用主成分分析将多指标转化为少数几个综合指标已达到降维的目的,但另一方面又考虑到数据除了具有相关性还具有类别性,我们利用聚类分析将多个指标进行分类,将主成分分析与聚类分析两种统计方法结合起来,采用“主成分聚类分析法”,最后再利用综合评价法对酿酒葡萄进行评分并排序、分级。具体操作步骤如下:首先,对酿酒葡萄各指标进行聚类分析,将指标分成若干个类,每个聚类属于同一类指标,该过程我们将使用 SPSS 18.0 18.0 实现。其次,对每个聚类指标进行主成

26、分分析,获得该聚类指标的主成分集合;然后,再确立主成分聚类分析综合评价函数,最后引入葡萄酒质量得分指标,建立综合评价模型对酿酒葡萄进行评价、排序并分级,此间权重的确立采用的是经验赋值法,后面整个过程我们将实用 Matlab 进行软件实现。5.2.建模思路葡萄质量评分和分级建立综合评价模型引入葡萄酒质量指标并析各聚类指标的主成分分指标的聚类分析数据处理(无量纲化)95.3.各指标数据的初步相关性分析在数据的初步分析中,我们利用 EXCEL 2007 分析了酿酒葡萄的各指标与葡萄酒质量的关系密切程度,对其做了相关性分析,并得到了以下结果,见表 5,表 5 酿酒葡萄理化指标与葡萄酒质量相关性酿酒葡萄

27、理化指标与葡萄酒质量相关性指标相关系数显著程度葡萄总黄酮0.58(*)DPPH 自由基 1/IC500.57(*)b*(+黄;-蓝)0.53(*)PH 值0.49(*)蛋白质0.46(*)总酚0.45(*)果梗比0.38(*)黄酮醇0.33(*)出汁率0.32(*)酒石酸0.29(*)固酸比0.26(*)单宁0.25(*)白藜芦醇0.18(*)花色苷0.18(*)氨基酸总量0.16(*)果穗质量0.15(*)L*0.06(*)VC 含量0.06(*)褐变度0.05(*)果皮质量0.04(*)百粒质量0.01(*)多酚氧化酶活力(0.05)(*)总糖(0.08)(*)还原糖(0.13)(*)干物

28、质含量(0.16)(*)柠檬酸(0.17)(*)可溶性固形物(0.24)(*)果皮颜色(0.26)(*)苹果酸(0.28)(*)可滴定酸(0.41)(*)(注:带括号“()”的是呈现负相关)通过简单地相关性分析,可以得到酿酒葡萄对葡萄酒质量的影响显著的指标是:葡萄总黄酮、DPPH 自由基、b*(+黄;-蓝)、PH 值、总酚、可滴定酸、果梗比、黄酮醇、出汁率、蛋白质。但是该分析只反映了俩俩指标间相关系数,并没有反映出各指标内生变量的联系。10为了更加精确地分析各指标的内在联系以及与葡萄酒质量的关系,我们建立了主成分分析模型,将多个指标线性重组,并排除关联性极小的指标,已降维的目的,是的接下来的分

29、析更加合理且方便。5.4.对特殊指标的处理特别提出的是,对于红葡萄果皮颜色指标的处理,考虑到“b*(+黄;-蓝)”指标的数值有负值出现,对此我们首先单独选取了酿酒葡萄的该指标与葡萄酒质量进行了分析,我们根据葡萄酒质量得分排序与所含色素含量排序做了对比,发现含有蓝色色素的葡萄所酿葡萄酒排序集中在最后,而含黄色色素的葡萄所酿葡萄酒排序集中在前面,更仔细地分析,发现含黄色色素较少(基本为 0)的葡萄排序也排在后面,而含量中等的葡萄多出现在前面。对此,我们利用模糊理论,对“b*(+黄;-蓝)”进行了人为的赋值处理,将色素分为 3 个等级,分别赋予 1,3,5 分。而同样地,再对白葡萄果皮中颜色指标进行

30、分析时,我们发现其“a*(D65)”和“b*(D65)”指标与所酿葡萄酒质量没有明确关系,于是为了简化数据处理,我们直接剔除该组数据。处理后的指标见附录 3 表格。5.5.酿酒葡萄各指标的聚类分析我们利用聚类分析对酿酒葡萄的多个指标进行分类。利用数值分类方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。在这个模型中,我们将采取系统聚类法。5.5.1.数据的无量纲化(标准化)处理考虑到葡萄各指标的单位和数量级不一样,我们首先对数据进行了无量纲化处理,具体方法采用了 ZScores:标准化变换,即令:)m,jn,i(SSSxxxjjjjij*ij21

31、21000=5.5.2.构造关系矩阵(亲疏关系的描述)对于描述变量或样本的亲疏程度的数量指标有两种:相似系数与距离,但方法有很多,我们将采用ncorrelatioPearson:皮尔逊相关系数用于衡量酿酒葡萄指标的亲疏程度,具体数学公式如下:1=nZyZx)y,xcos(iii,?iZx是ix的标准值5.5.3.聚类方法的选择对于具体聚类方法的选择,我们采用了linkagegroupsBetween组间平均距离连11接法,具体方法是:合并两类的结果使所有的两两项对之间的平均距离最小。(相对的两成员分属不同类)。5.5.4.谱系分类的确定最后我们将根据聚类图根据题目需要确定适当的分类方式。整个过

32、程我们采用SPSS软件实现,图 1 是红色酿酒葡萄的各指标聚类图:(考虑篇幅,白色葡萄的聚类图详见附录 4)图 1 红色酿酒葡萄的各指标聚类图其结果如下:编号与指标的对应关系见附录 5第一类:22,20,18,17,16,11=C第二26,25,21,19,15,13,12,11,10,9,8,7,6,5,4,22=C第三类:30,27,24,233=C第四类:29,28,14,34=C同理,我们可以得到白色酿酒葡萄的指标聚类结果:第一类:27,23,21,8,5,4,31=D第二类:29,28,26,252=D12第三类:30,24,22,20,19,18,17,16,15,14,13,12

33、,11,10,9,7,6,2,13=D5.6.基于主成分分析的聚类后指标综合对于已经分好类的指标,我们将利用主成分分析对各类指标进行线性重组,已达到降维的目的,并消除指标间相关性带来的负面影响。设原酿酒葡萄的指标分别是mxxx,21,这m个变量构成的p维随机向量为Tpxxxx),(21=,uxE=)(为期望向量,VxD=)(为协方差矩阵。主成分分析后得到的新指标,myyy,21均是pxxx,21的线性组合)(mp。+=+=+=mpmppmmmmxuxuxuyxuxuxuyxuxuxuy221132222121212121111或写成XUYT=其中),(21212222111211pmpmmpp

34、UUUuuuuuuuuuU=XUYT=myyy,21称为主成分,其中1y为第一主成分,2y是第二主成分,以此类推。我们将找出系数矩阵U,得到mx,x,x21的线性组合来表示阁主成分。其具体计算步骤为:5.6.1.原始数据矩阵的处理设原始数据矩阵为:=npnnppxxxxxxxxxX212222111211npx中的np表示第np中影响元素,qn,2,1=分别代表酿酒葡萄的各指标,具13体等。x,j21=分别代表对应的酿酒葡萄样品。表 6 酿酒葡萄指标与编号12345678910氨基酸总量蛋白质VC含量花色苷酒石酸苹果酸柠檬酸多酚氧化酶活力褐变度DPPH自由基1/IC50111213141516

35、17181920总酚单宁葡萄总黄酮白藜芦醇黄酮醇总糖还原糖可溶性固形物PH值可滴定酸21222324252627282930固酸比干物质含量果穗质量百粒质量果梗比出汁率果皮质量L*果皮颜色b*(+黄;-蓝)5.6.2.各指标数据的标准化处理跟上聚类分析中的数据处理一样,为了使指标具有可比性,我们将对数据进行无量纲化处理。对于该模型,我们将采用最常用的标准化变换:),2,1,2,1(000*mjniSSSxxxjjjjijij=5.6.3.计算出相关系数矩阵=pppppprrrrrrrrrR212222111211其中,=nkjkjnkikinkjijikiijxxxxxxxxr12121)()

36、()(因为 R 是实对称矩阵(即jiijrr=),所以只需计算出上三角元素或下三角元素。145.6.4.计算特征值与特征向量首先解出特征方程0=Ri,求出特征值i),2,1(pi=。并使其按大小顺序排列,即p21;然后分别求出对应于特征值i的特征向量ie),2,1(pi=,这里要求1=ie,即112=pjije,其中ije表示向量ie的第j个分量。5.6.5.计算主成分贡献率及累计贡献率主成分i的贡献率为)p,i(pkki211=累计贡献率为)p,i(pkkikk2111=一般累计贡献率达 85%以上的特征值m,21所对应的第一、第二、第m)(pm个主成分。5.6.6.计算主成分载荷主成分载荷

37、的计算公式),2,1,(),(pjiexxplijijiij=得到各主成分的载荷以后,按照=nkkjikijlxZ1计算各样本的得分:(综合评价)=nmnnmmrrrzzzzzzZ212222111211分别对1C,2C,3C,4C类指标做主成分分析,其每类对应的主成分元素集为:15,1312111yyyY=,,2625242322212yyyyyyY=,,3332313yyyY=,,4342414yyyY=,其中1C的主成分分析的结果如下(表 6、表 7):表 7 特征值排序1C特征值排序3.840.870.590.480.110.10贡献率64.07%14.57%9.82%8.02%1.9

38、1%1.61%累计贡献率64.07%78.64%88.46%96.48%98.39%100.00%表 8 主成分载荷主成分载荷11y12y13y1x-0.71-0.19-0.5716x-0.91-0.150.0117x-0.78-0.130.4818x-0.900.06-0.1020 x-0.440.89-0.0422x-0.95-0.080.14我们可以得到1C类指标的主成分表达式:222018171611195.044.090.078.091.071.0 xxxxxxy=222018171611208.089.006.013.015.019.0 xxxxxxy+=2220181716113

39、14.004.010.048.001.057.0 xxxxxxy+=同理我们可以得到2C,3C,4C类的主成分表达式:16262521191513121110987654221560590420280520770770870840620570330390390870690 x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.y+=262521191513121110987654222290100200620040400090310400530670680760040200370 x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.y+=26252119151312111

40、0987654223190140490430060130310120050310350430280800250360 x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.y+=、262521191513121110987654224420610170090730190080150080120180050270010160170 x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.y+=262521191513121110987654225090090620400020170300020060240130300170350130040 x.x.x.x.x.x.x.x.x.

41、x.x.x.x.x.x.x.y+=262521191513121110987654226540010070120070260070260180120090190110070040180 x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.x.y+=302724233165.087.087.083.0 xxxxy+=302724233275.006.023.029.0 xxxxy+=302724233311.041.009.044.0 xxxxy+=29281434186.060.09.034.0 xxxxy+=29281434235.002.003.093.0 xxxxy+=29281

42、434321.080.029.010.0 xxxxy+=同理,对于白葡萄我们仍然采取同样的方法得到了其主成分表达式,考虑篇幅的原因,这里不再一一列出。5.7.酿酒葡萄理化指标得分的综合评价模型对于红色葡萄的聚类结果我们在上述论文中可知,C,CCC,321=而每一类的主成分分析结果在上一节中可以知道Y,Y,Y,YY4321=,其中Yq,Yq,Yq,YqYqn321=为第17q类指标的主成分集合,nYq为第q类指标的第q类成分。若Hpq为第q类指标第p个主成分的权重,则线性组合=t1ppqqpyhFq称为第q类指标的综合指标;若Wq为第q类指标的权重,则线性组合=qtttFF1称为全体指标的综合指

43、标。指标聚类的权重我们可以直接根据主成分分析贡献率的权重所确立。最后结果在 Matlab 运行其结果如下(表 8)表 9各聚类得分1C类得分2C类得分3C类得分4C类得分-0.16080.36160.08100.0354-0.16390.42100.05630.0539-0.32480.56700.05920.0559-0.15050.19920.08700.0723-0.14750.25810.20450.0212-0.19640.24120.10380.0615-0.16720.16240.06480.0511-0.15270.46700.11530.0635-0.15380.54970.

44、08700.0608-0.11500.30310.1237-0.2051-0.16490.09170.07780.5848-0.18400.12270.10960.0538-0.13930.32430.08560.1220-0.13400.46830.10500.0828-0.14750.23890.09600.0475-0.13980.17300.06570.0694-0.15290.29270.19600.0299-0.17040.14070.10700.0733-0.16180.33830.09320.0474-0.15760.20370.16720.0608-0.25870.28140

45、.06880.0982-0.17620.19980.06500.0726-0.15850.51950.13620.1206-0.14410.23220.19950.0437-0.10880.26380.14430.0523-0.11400.16270.26570.0264-0.12690.21460.11920.0684185.8.引入葡萄酒质量指标的酿酒葡萄分级对于引入葡萄酒质量指标后的综合评价中各类指标的权重确立,我们考虑到各类指标得分与质量得分的相关系数,并根据其相关系数以及经验确立权重。得到其红葡萄的得分和排序为(表 10):表 10 红葡萄理化指标得分及排名样本1C类得分2C类得分3

46、C类得分4C类得分理化指标得分质量得分综合得分最后得分排序23-0.15850.51950.13620.12060.2290286.8637.5877619-0.15380.54970.0870.06080.221380.0436.13428214-0.1340.46830.1050.08280.200374.8835.5176938-0.15270.4670.11530.06350.197270.8533.8045943-0.32480.5670.05920.05590.1851981.4933.6678352-0.16390.4210.05630.05390.157981.5232.942

47、23617-0.15290.29270.1960.02990.1482978.8132.70979713-0.13930.32430.08560.1220.1397476.5932.63337819-0.16180.33830.09320.04740.1356680.4032.6060495-0.14750.25810.20450.02120.1372173.7728.897951024-0.14410.23220.19950.04370.1282880.2026.84779111-0.16080.36160.0810.03540.1403262.6924.300601225-0.10880.

48、26380.14430.05230.1322869.9523.222771326-0.1140.16270.26570.02640.1246374.8822.150911410-0.1150.30310.1237-0.20510.1148475.3221.015861520-0.15760.20370.16720.06080.106279.1320.592581627-0.12690.21460.11920.06840.1030672.3516.941151721-0.25870.28140.06880.09820.0912878.6216.91999186-0.19640.24120.103

49、80.06150.0944970.7616.5251915-0.14750.23890.0960.04750.0996154.8615.446862011-0.16490.09170.07780.58480.0855267.3915.29072214-0.15050.19920.0870.07230.0829167.4015.031022222-0.17620.19980.0650.07260.0714477.5914.903332316-0.13980.1730.06570.06940.0678975.7414.36322247-0.16720.16240.06480.05110.05607

50、70.3112.637982518-0.17040.14070.1070.07330.0616358.6712.03042612-0.1840.12270.10960.05380.0505451.179.1714327我们首先根据葡萄酒质量的得分将其按区间划分等级,其中80,100为优,70,80为良级,60,70为中级,0,60为差。表 11 葡萄酒分级序号23231924920172119评分86.8681.5281.4980.480.280.0479.1378.8178.62等级优优优优优优良良良序号2213161026145278评分77.5976.5975.7475.3274.887

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 财经金融

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁