《葡萄酒的评价.pdf》由会员分享,可在线阅读,更多相关《葡萄酒的评价.pdf(33页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、葡萄酒的评价摘要葡萄拥有很高的营养价值,含有多种氨基酸、蛋白质和维生素,而以葡萄为原料的葡萄酒也蕴藏了多种营养物质。目前,葡萄酒的营养价值得到了广泛的认可,可以说葡萄酒是一个良好的滋补品。确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。本文通过对葡萄酒的评价,以及酿酒葡萄和葡萄酒的理化指标之间的关系进行讨论分析。对不同的酿酒葡萄进行了分类,并更深入讨论两者的理化指标是否影响葡萄酒质量
2、。由于该题的数据量较大,我们主要采用 EXCEL 和 SPSS 软件对模型进行求解。针对问题一,首先我们将附件 1 中数据在 Excel 中进行处理;其次,我们在SPSS 中,采用 T 检验,分别分析出两组评酒品红、白葡萄酒的评价结果有无差异性。最后,我们通过 T 检验,在 SPSS 中可其相应的标准差,通过比较标准差来确定哪个组更可靠。针对问题二,对附件二和附件三中的葡萄理化指标进行相关性分析和主成分分析,筛选出影响葡萄酒评分的主要指标(以下简称主要指标);再建立神经网络模型,根据葡萄酒品尝评分进行分层抽样,选取与之对应的红、白酿酒葡萄各6 种,将其主要指标作为输入数据,对应葡萄酒的品尝评分
3、作为输出数据建立具有一个隐含层的 BP 神经网络,对神经网络进行训练,使其准确智能的给出葡萄酒的评分,根据评分结果对酿酒葡萄进行分级。针对问题三,通过聚类分析和典型相关分析来确定酿酒葡萄与葡萄酒的理化指标之间的关系。再对简化后的两组样本进行典型相关分析,得到两种样本指标被对方解释的比例分别达到了 100%和 92.4%,较好的反映了酿酒葡萄与葡萄酒的理化指标之间的关系。针对问题四,我们用层次分析法,通过比较品酒员对葡萄酒的评分与根据酿酒葡萄和葡萄酒的理化指标得到的葡萄酒的质量这两者的吻合度,具体吻合度的大小可用图形和线性相关分析得到的检验指标大小同时判断定量给出。关键词:SPSST 检验聚类分
4、析法相关系数回归分析原理相关分析原理偏相关系数EXCEL判别分析一、问题重述确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。题目给出的附件一共有三个,分别为某一年份一些葡萄酒的评价结果,该年份这些葡萄酒的和酿酒葡萄的成分数据。需解决的问题为以下四个:1.分析附件 1 中两组评酒员的评价结果有无显著性差异,哪一组结果更可信?2.根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
5、3.分析酿酒葡萄与葡萄酒的理化指标之间的联系。4 分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?二、问题分析二、问题分析2.1 针对问题一,我们将它分成两个问题去解决1、针对问题一中的两组评酒员的评价结果有无显著性差异,我们在 SPSS中利用 T 检验去判断。在这之前,我们对附录 1 中数据进行处理,利用 excel分别求出两组评酒员分别对红葡萄酒和白葡萄酒的评价结果的平均值。2、针对问题一中选择哪组结果更加可靠,我们利用 SPSS 求出两组葡萄酒评价结果的平均值的标准差,通过对比两组相应葡萄酒评价结果的平均值的标准差,从而确定出第几组
6、的结果更可靠。2.2 针对问题二对附件二和附件三中的葡萄理化指标进行相关性分析和主成分分析,筛选出影响葡萄酒评分的主要指标(以下简称主要指标);再建立神经网络模型,根据葡萄酒品尝评分进行分层抽样,选取与之对应的红、白酿酒葡萄各 6 种,将其主要指标作为输入数据,对应葡萄酒的品尝评分作为输出数据建立具有一个隐含层的 BP 神经网络,对神经网络进行训练,使其准确智能的给出葡萄酒的评分,根据评分结果对酿酒葡萄进行分级。2.3 针对问题三通过聚类分析和典型相关分析来确定酿酒葡萄与葡萄酒的理化指标之间的关系。为了能够在海量数据中找到两个样本之间的内在联系,我们先通过聚类分析对酿酒葡萄的理化指标进行分类如
7、下表所示:(数字代表的含义见正文)糖类酚类持久度酸度酒精度微量元素色度果皮质地1、16、17、18、20、222、11、12、134、8、9、155、6、719、21314、2829、3023、24、26、27再对简化后的两组样本进行典型相关分析,得到两种样本指标被对方解释的比例分别达到了 100%和 92.4%,较好的反映了酿酒葡萄与葡萄酒的理化指标之间的关系。2.4 针对问题四考虑到酿酒葡萄和葡萄酒的理化指标对葡萄酒的影响因素众多,关系复杂,我们用层次分析法,对于论证,基本思路是通过比较品酒员对葡萄酒的评分与根据酿酒葡萄和葡萄酒的理化指标得到的葡萄酒的质量这两者的吻合度,吻合度大,证明能用
8、葡萄和葡萄酒的理化指标评价葡萄酒的质量,吻合度小,则不能,具体吻合度的大小可用图形和线性相关分析得到的检验指标大小同时判断定量给出。三、基本假设1、假设制作葡萄酒的工艺是一样且稳定的;2、假设两组评酒员是随机分配的且每位评酒员的系统误差较小;3、假设题目附件所给数据真实有效;4、假设不考虑多种葡萄可制成一种酒,只考虑一种葡萄制成一种酒;5、假设只考虑红葡萄制成红葡萄酒,白葡萄制成白葡萄酒,忽略去皮红葡萄可酿制白葡萄酒;6、假设酿酒葡萄中存在的而葡萄酒中不存在的理化指标也会影响葡萄酒的质量;7、假设质量高的葡萄酒一定由质量好的酿酒葡萄制成,但是质量好的酿酒葡萄不一定能酿制成质量高的葡萄酒;四、四
9、、符号说明符号说明n自由度iX:表示随机变量;2S:表示样本方差;ix:酿酒葡萄的主成分指标iy:葡萄酒的理化指标iu:酿酒葡萄的典型变量iv:葡萄酒的典型变量i:对应判断矩阵的最大特征值E:准则层判断矩阵ia:对应矩阵的特征向量ib:权重向量F:红葡萄酒判断矩阵G:白葡萄酒判断矩阵R:红葡萄酒的方案层中各因素对准则层中葡萄酒理化指标的比重W:白葡萄酒的方案层中各因素对准则层中葡萄酒理化指标的比重1RR:红葡萄酒样品在葡萄酒质量这一项上占的比重1WW:白葡萄酒样品在葡萄酒质量这一项上占的比重五、模型建立与求解五、模型建立与求解5.1 两组评酒员的评价结果有无显著性差异,选择哪一组更可靠5.1.
10、1 问题分析根据题目要求,我们需要根据两组评酒员对27种红葡萄酒和28种白葡萄酒的10个指标相应的打分情况进行分析,并确定两组评酒员对葡萄酒的评价结果是否有显著性差异,然后判断哪组评酒员的评价结果更可信。我们对两组品尝同一种类酒样品的评酒员的评价结果进行两两配对,分析配对的数据是否满足配对样品t检验的前提条件,由判断可知符合检验要求。接着,我们对数据进行多组配对样品的t检验,从而对两组评酒员评价结果的显著性差异进行检验。对于两组评价的可靠性的评价,我们选择信度分析的方法。运用信度系数法,通过比较两组数据值的大小来判定稳定性。5.1.2 两组评酒员的评价结果有无显著性差异配对样本的 T 检验2.
11、1 配对样本 T 检验的概念若实验设计是将条件、性质相同或相近的两个供试单元配成一对,并设有多个配对,然后对每一个配对的两个供试单元分别随机的基于不同处理,这样的实验叫做配对实验。它的特点是配成对子的两个试验单元的非处理条件尽量一致,不同对子的试验单元之间的非处理条件允许有差异,每一个对子就是试验处理的一个重复。SPSS 配对样本的 T 检验主要解决来自配对样本数据的两个总体均值有否显著差异的问题。所谓配对样本,通常是指对同一观察对象在使用某种新方法的有效性。配对样品 t 检验具有的前提条件为:(1)两样品必须配对;(2)两样品来源的总体应该满足正态性分布。2.2 基本数学原理:成对样本的均值
12、比较 t 检验,假设这两个样本之间的均值差异为零,用于检验的统计量为:t=)1(/)()(1212nnnyxniniiiiiyxyx(式中,n-1 为自由度,n 为数据对数)2.建立检验假设:0:,0:10ddHH(其中d为均值差异)其假设的意义为,当差异为零时,可以认为某种试验方法无效;反之,当差异不为零,可以认为某种试验方法在发生作用或有效。2.3 模型求解:(1)配对样品的t检验要求两对应样品的总体满足正态分布,则总体中的样品应该满足正态性或者近似正态性,样本的正态性检验如下:根据 t 检验的原理,对葡萄酒配对样品进行t检验之前我们要对样品进行正态性检验。配对样品的t检验要求两对应样品的
13、总体满足正态分布,总体中的样品应该满足正态性或者近似正态性。因此,以白葡萄酒的澄清度的28组数据为例分析,利用SPSS软件绘制两样品的直方图和趋势图如图1所示:图一 白葡萄酒澄清度两组数据直方图我们假设两组总体数据都服从正态分布,利用 SPSS 软件进行 K-S 正态性检验的具体结果见附录 1。两组数据的近似相伴概率值 P 分别为 0.629 和0.223,大于我们一般的显著水平 0.05 则接受原来假设,即两组红葡萄酒的澄清度数据符合近似正态分布。同理可用 SPSS 软件对其他指标的正态性进行检验,得到结果符合实际猜想,都服从近似正态分布。(2)问题一中配对样品为红葡萄酒与白葡萄酒两个完全相
14、同的酒样品在两组不同评酒员的检测下得到的两组数据,其中两组中各个指标的数据为各组10个评酒员对该指标打分的平均值。通过先求和后平均的算法作出各个样品的总指标,即平均分,如表 1。并在SPSS 中对两组红葡萄酒质量的平均值运行配对样本的 T 检验(检验水平=0.05)表 1:酒样品的平均分样品红 1红 2白 1白 2样品 162.768.18277.9样品 280.37474.275.8样品 380.474.685.375.6样品 468.671.279.476.9样品 573.372.17181.5样品 672.266.368.475.5样品 771.565.377.574.2样品 872.3
15、6671.472.3样品 981.578.272.980.4样品 1074.268.874.379.8样品 1170.161.672.371.4样品 1253.968.363.372.4样品 1374.668.865.973.9样品 147372.67277.1样品 1558.765.772.478.4样品 1674.969.97467.3样品 1779.374.578.880.3样品 1859.965.473.176.7样品 1978.672.672.276.4样品 2078.675.877.876.6样品 2177.172.276.479.2样品 2277.271.67179.4样品 23
16、85.677.175.977.4样品 247871.573.376.1样品 2569.268.277.179.5样品 2673.87281.374.3样品 277371.564.877样品 2881.379.6将数据导入 spss 运行后,结果如下:成对样本检验成对样本检验tdfSig.(双侧)对 1红 1-红 22.45826.021对 2白 1-白 2-2.18427.038结论分析:本题中,红葡萄酒自由度 n=27-1=26,056.226t2,即知拒绝域为|t|2.056,白葡萄酒自由度 n=28-1=27,052.227t2,即知拒绝域为|t|2.052。由上表可知,两组品酒师对红、
17、白葡萄酒的检验结果|t1|=2.4582.056,|t2|=2.1842.052,因为两个检验值均在拒绝域,所以两组品酒师的评价结果有显著差异。5.1.3 评价结果的可信度分析3.1 基本数学原理:本小问,我们采用信度分析中的信度系数法。Cronbach 信度系数是目前最常用的信度系数,其公式为:其中,K 为酒样品的总数,为第 i 种酒品得分的方差,为全部酒样品总得分的方差。从公式中可以看出,系数评价的是品酒师各酒样得分间的一致性,属于内在一致性系数。这种方法适用于态度、意见式问卷(量表)的信度分析。目前,普遍认为信度系数的值一般在 0 和 1 之间,在此范围内,值越大,评价信度越好。3.2
18、模型求解:对附表 1 中两组品酒师对每种酒样样品的评价结果求加权平均值,得到该酒样品的加权平均分,如表 2。表 2:酒样品的加权平均分样品红 1红 2白 1白 2样品 17.798.37910.2559.785样品 210.2019.3529.179.503样品 310.0749.35510.4279.564样品 48.578.9119.8869.695样品 59.0719.0179.00510.236样品 68.9858.2898.69.492样品 78.8978.2299.699.237样品 89.0038.198.9189.025样品 910.1389.7228.92810.02样品 1
19、09.2048.5469.32210.058样品 118.6627.6039.0978.942样品 126.9848.6227.9879.092样品 139.3958.4978.3819.331样品 149.2049.1189.0149.65样品 157.3098.1889.0779.802样品 169.3488.7989.38.503样品 179.9019.2169.80910.148样品 187.6588.2929.0849.682样品 199.7539.1128.9999.604样品 209.8179.5719.729.582样品 219.6699.0789.659.971样品 229.
20、5299.0178.7259.915样品 2310.7169.5219.4399.599样品 249.7068.9239.2019.591样品 258.5718.4459.4910.02样品 269.1398.8799.9499.299样品 279.1359.0318.2349.554样品 2810.0839.957运用 spss 中测验信度分析模块,对酒样品的最终得分进行信度分析,得到以下结果:第一组第一组可靠性统计量可靠性统计量CronbachsAlpha项数.3272第二组第二组可靠性统计量可靠性统计量CronbachsAlpha项数.5182结果分析:有结果可知,第一组品酒师评价结果的
21、 Cronbachs Alpha 为 0.327 小于第二组品酒师评价结果的 Cronbachs Alpha 的 0.518,所以第二组品酒师的评价结果更加可信。5.1.4 问题 1 的结果分析在本问中,我们通过对两组评酒员的品酒打分情况统计数据按照指标进行配对 t 检验,发现有部分指标存在显著性差异。然后,我们运用可信度分析的方法对每组数据进行可靠性的评价,进而得出了第二组数据更加可靠的结论。5.2.1 酿酒葡萄的主要指标筛选题目要求我们根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级。经验告诉我们,葡萄的理化指标越合理、葡萄酒的质量越好该酿酒葡萄的质量也就越好。这就要求我们分析葡萄的
22、具体理化对葡萄的综合得分的贡献,并结合所酿葡萄酒的得分去评价葡萄的等级。在葡萄品质的评价过程中,由于酿酒葡萄的理化指标项目繁多复杂,为简化理化指标对葡萄酒评分的影响,对附件二中理化指标进行相关性分析和主成分分析。首先对附件二中对同一指标多次测量的数据做取平均值处理,借助 SPSS 软件对数据进行相关性分析和主成分分析,筛选出影响葡萄酒评分的主要指标,所得结果如下表所示。表 3 红葡萄指标与酒评分相关性分析表 4 白葡萄指标与酒评分相关性分析表 5红葡萄理化指标的主成分分析结果显著相关指标相关系数蛋白质0.514*DPPH0.407*总酚0.448*葡萄总黄酮0.504*颜色 b*-0.435*
23、颜色 C-0.438*pH0.429*显著相关指标相关系数颜色 b*0.539*颜色 C0.460*可溶性固形物0.419*葡萄总黄酮-0.364*酒石酸0.453*果穗质量-0.406*主成分包含成分名称贡献率(%)第一主成分蛋白质,花色苷,DPPH,总酚,单宁,葡萄总黄酮22.217第二主成分总糖,干物质含量,可溶性固形物,颜色 a*37.981第三主成分白藜芦醇,颜色 b*,颜色 c51.412表 6白葡萄理化指标的主成分分析结果主成分包含成分名称贡献率(%)第一主成分总糖,干物质含量,果穗质量,颜色 b*,颜色 C,氨基酸22.217第二主成分总酚,总黄酮,颜色 H,酒石酸37.981
24、第三主成分固酸比,可滴定酸,颜色 a*51.412通过相关性及主成分分析得到决定葡萄酒评分的酿酒葡萄主要指标如下:红葡萄:蛋白质、单宁、DPPH、干物质含量、花色苷、颜色 b*、颜色 C、总酚、葡萄总黄酮、总糖等十项指标;白葡萄:氨基酸、干物质含量、果穗质量、固形物、酒石酸、颜色 b*、颜色 C、总酚、葡萄总黄酮、总糖等十项指标。5.2.2 BP 神经网络模型的建立与酿酒葡萄的分级由问题知第二组的评分更为准确,因而我们利用第二组的品尝评分对葡萄酒进行排序,并进行分层抽样,选取综合评分高、中、低的红葡萄酒所对应的酿酒葡萄各 2 种,将选取出的 6 种葡萄的 10 项主要理化指标和对应的葡萄酒评分
25、输入神经网络中,进行学习,训练曲线如下:图 1BP 神经网络对红葡萄指标的训练曲线图 2 BP 神经网络对白葡萄指标的训练曲线分别输入所有红、白葡萄的主要指标到神经网络,得到葡萄的评价结果如下图(其中实线为 BP 网络评分,虚线为品酒员评分):图 3BP 神经网络与品酒员对红葡萄的评分对比图图 4BP 神经网络与品酒员对白葡萄的评分对比图根据酿造的葡萄酒的整体评分,假设葡萄分级标准如下:红葡萄:8.5 分以下为二等,8.59.0 分为一等,9.分 0 以上为特等;白葡萄:9.0 分以下为二等,9.09.5 分为一等,9.5 分以上为特等。整理所有葡萄得分分级如下表:表 7 红、白葡萄评分红葡萄
26、序号BP 得分等级白葡萄序号BP 得分等级99.3782特等39.6751特等139.2142179.6714199.1783219.6084149.1159.6049109.1043239.590829.102289.5864279.077899.5559259.0514149.549359.039749.5488239.0271209.5337268.9319一等269.524688.9116119.4727一等38.8997159.4308168.895619.4006208.8657139.3646128.8523259.273648.798629.200268.733189.1758
27、248.7279229.171178.6787109.0902218.5375198.8999二等228.5031278.8498188.4958二等68.8449158.4633168.836978.419248.66718.4116188.6538118.4057128.614178.61175.3 问题三的求解在分析酿酒葡萄与葡萄酒的理化指标之间的关系时,本文使用了层次聚类分析和典型相关分析。5.3.15.3.1 层次聚类分析层次聚类分析根据聚类分析的原理可知,它的实质是建立一种分类方法,将一批样本数据按照它们在性质上的亲密程度在没有先验知识的情况下进行自动分类。这种类就是一个具有相似性
28、的个体的集合,不同类之间具有明显的区别。层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式将观察值分类,直到最后所有样本都聚成一类。由第三问可知,要想分析酿酒葡萄与葡萄酒的理化指标之间的联系,必然要用到附件2-指标总表中的大量数据,如果不先对这些样本进行简化,就很难找到它们之间的内在关系。而 R 型聚类分析使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。对于附件二指数总表,我们根据其中的一级指标(即标记为蓝色的)先大致把酿酒葡萄的理化指标分为 30 个,其中,1 为氨基酸总量,2 为蛋白质,3 为VC 含
29、量,定义 4 30 依次为:花色苷、酒石酸、苹果酸、柠檬酸、多酚氧化酶活力、褐变度、DPPH 自由基、总酚、单宁、葡萄总黄酮、白藜芦醇、黄酮醇、总糖、还原糖、可溶性固形物、PH 值、可滴定酸、干物质含量、果穗质量、百粒质量、果梗比、出汁率、果皮质量、果皮颜色。定性考察酿酒葡萄的理化指标,可以看出,某些指标之间可能存在较强的相关性。比如红(白)葡萄中的总糖、还原糖与可溶性固行物之间可能存在较强的相关性,总酚、单宁与葡萄总黄酮之间也可能存在较强的相关性。为了验证这种想法,运用 MATLAB 软件计算红葡萄 30 个一级指标之间的相关系数,得到的相关系数矩阵如附录 3 所示。可以看出某些指标之间确实
30、存在很强的相关性,因此可以考虑从这些指标中选取几个有代表性的指标进行聚类分析。为此,把三十个指标根据其相关性进行R 型聚类,再从每个类中选取代表性的指标。因为在聚类分析中如果参与聚类的变量的量纲不同,就会导致错误的聚类结果。因此在聚类过程进行之前必须对每个理化指标的数据分别进行标准化处理,以消除量纲的影响。指标间相近性度量采用相关系数,类间相近性度量的计算选用类平均法。聚类树形图如下图11 13 10 12 2 26 4 9 6 8 15 25 5 7 19 21 1 16 18 22 17 20 3 14 30 29 28 23 24 270.10.20.30.40.50.60.70.80.
31、911.1图 5红葡萄指标类聚树形图从红葡萄指标聚类图中可以看出,可以将红葡萄的 30 个理化指标分为八类,分类结果如下(中的代表聚为一类)2、10、11、12、13、26、4、6、8、9、15、25、5、7、19、21、1、16、17、18、20、22、3、14、28、29、30、23、24、27同理可得,白葡萄的前十个指标的相关系数矩阵如附录 4 所示。11 13 15 2 12 9 1 6 16 18 17 22 10 28 30 20 14 23 24 27 26 3 5 25 4 8 29 7 19 210.10.20.30.40.50.60.70.80.911.1图 6 白葡萄指标
32、类聚树形图依据白葡萄指标聚类图中,同样可以将白葡萄 30 个理化指标分为以下八类2、9、11、12、13、15、1、6、10、16、17、18、20、22、28、30、3、5、2514、23、24、26、27、4、8、29、7、19、21对比以上得到的两种酿酒葡萄的指标类聚树形图和由它们将各自的 30 种理化指标的分类结果,我们不难发现,通过对两组指标分别用 R 型聚类分析归类之后,两种酿酒葡萄的归类区间有着明显的相似度,再结合它们内部的联系和所归的类与类之间的差异,可以得到如下的对应关系:表 8:主成分列表糖类酚类持久度酸度酒精度微量元素色度果皮质地1、16、17、18、20、222、11、
33、12、134、8、9、155、6、719、21314、2829、3023、24、26、27再通过两组理化指标的相关系数可以得出各类的主要指标:依次为糖类中的总糖,酚类中的总酚,持久度的酚氧化酶活性,酸度中的苹果酸,酒精度中的PH 值,微量元素 VC 含量,色度中的白芦藜醇,果皮质地中的果硬比。5.3.25.3.2 典型相关分析典型相关分析通常情况下,为了研究两组变量1,2,px xx,1,2,.,qy yy的相关关系,可以用最原始的方法,分别计算两组变量之间的全部相关系数,一共有 pq 个简单相关系数,这样又繁琐又不能抓住问题的本质。如果能够采用类似于主成分的思想,分别找出两组变量的各自的某个
34、线性组合,讨论线性组合之间的相关关系,则更简捷。为此,我们可以分别在每组变量中找出第一对线性组合,使其具有最大相关性,111 1212111112121ppqqua xa xa xvb yb yb y(5)然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。2121222221212222ppqqua xa xaxvb ybyb y(6)2u 与1u,2v 与1v 不相关,但2u 和2v 相关。如此继续下去,直到进行到r 步,两组变量的相关性提取完为止,可以得到r 组变量,这里r min,p q。研究两组随机变量之间的相关关系,可用复相关系数
35、(也称全相关系数)。复相关系数描述两组随机变量12,pXx xx与1,2,pYy yy之间的相关程度。其思想是先将每一组随机变量作线性组合,成为两个随机变量:1pTiiiua Xa x,1qTjjjvb Yb y(7)再研究u 与v的相关系数。由于u,v的投影与向量a,b有关,所以uvr与a,b有关,(,)uvuvrra b。我们取在1TXXaa 和1TYYbb 的条件下使uvr达到最大的 a,b作为投影向量,这样得到的相关系数为复相关系数:max,uvuvrra b。将两组变量的协方差矩阵分块得:,XXXYYXYYVar XCov X YXCovCov Y XVar YY,(8)此时,TTT
36、XYTuvXYTTTTXXYYCov a X b Yabrabaa bbD b YD a X(9)因此问题转化为在1TXXaa 和1TYYbb 的条件下求TXYab的极大值。根据条件极值的求法引入 Lagrange 乘数,可将问题转化为求,1122TTTXYXXYYS a babaabb(10)的极大值,其中,是 Lagrange 乘数。由极值的必要条件得方程组:00XYXXYXYYSbaaSabb(11)将上二式分别左乘Ta 与Tb,则得TTXYXXTTYXYYabaababb(12)注意TXYYX,所以TXYab代入方程组得:00XYXXYXYYbaab(13)以1YY左乘第二式得1YYY
37、Xba,所以11YYYXba 代入第一式得120XYYYYXXXa 同理可得120YXXXXYYYb 记111XXXYYYYXM ,112YYYXXXXYM (14)则得21M aa,22M bb说明2既是1M 又是2M 的特征根,,a b就是其相应于1M 和2M 的特征向量。1M 和2M 的特征跟非负,非零特征跟的个数等于min,p q,不妨设为q。设21M aa的特征跟排序为22212q,其余 pq个特征根为 0,我们称1,2,q 为典型相关系数。相应21M aa解出的特征向量为1,2,qa aa从22M bb解出的特征向量为1,2,qb bb从而可得q对线性组合:,1,2,TTiiiiu
38、a X vb Y iq(15)称每一对变量为典型变量。求典型相关系数和典型变量归结为求1M 和2M 的特征根和特征向量。又因为,当ij时,1,0,ijijij(,)(,)0TTTijijiXXjCov u uCov a X a Xaa(,)(,)0TTTijijiYYjCov v vCov b Y b Ybb表示一切典型变量都是不相关的,并且其方差为一,(,)()ijijijCov u uE uu(,)()ijijijCov v vE vv其中1,0,ijijijX与Y 的同一对典型变量iu 和iv 之间的相关系数为i,不同对的典型变量iu 和iv(ij)之间不相关,即协方差为 0:,(,)(
39、)0,iijijijCov u vE u vij当总体的均值向量和协差阵 未知时,无法求总体的典型相关系数和典型变量,因而需要给出样本的典型相关系数和典型变量。设(1)(),nXX和(1)(),nYY为来自总体容量为n的样本,这时,协差阵的无偏估计为_()()1_()()1_()()11()()11()()11()()1nTXXiiinTYYiiinTTXYYXiiiXXXXnYY YYnXXYYn(16)其中_()11niiXXn,_()11niiYYn,用 代替 并按 和 求出i和 a,b,称i为样本典型相关系数,称Tiiua X,Tiiva Y,(1,)iq 为样本的典型变量。计算时也可
40、从样本的相关系数矩阵出发求样本的典型相关系数和典型变量,将相关系数矩阵R 取代协方差阵,计算过程是一样的。如果复相关系数中一个变量是一维的,那么也可称为偏相关系数。偏相关系数是描述一个随机变量 y 与多个随机变量(一组随机变量)12(,)TpXx xx之间的关系。其思想是先将那一组随机变量作线性组合,成为一个随机变量:1pTiiiuc Xc x(17)再研究 y 和u的相关系数。由于u 和投影向量c 有关,所以yur 与c 有关,()yuyurrc。我们取在1TXXcc 的条件下使yur 达到最大的c作为投影向量得到的相关系数为偏相关系数:1max()TXXyuyuccrrc(18)其余推导与
41、计算过程与复相关系数类似。5.5.3.33.3 原始变量与典型变量之间的相关性原始变量与典型变量之间的相关性(1)原始变量与典型变量之间的相关系数设原始变量相关系数矩阵11122122RRRRRX典型变量系数矩阵11121212221212rrrp rpppraaaaaaAaaaaaaY 典型变量系数矩阵1112121222111212rrrq rqqqrbbbbbbBbbbbbb则有11cov(,)cov(,)cov(,)ppiiikjkkjikkkx uxa xax x(19)ix 和iu 的相关系数1(,)(,)/()pijkjikikx ua cov x xD x(20)同理可计算得1
42、11(,)cov(,)/()(,)cov(,)/()(,)cov(,)/()qijkjikikqijkjikikqijkjikikx vbx yD xy uay xD yy vby yD y(21)(2)各组原始变量被 典型变量所解释的方差X组原始变量被iu 解释的方差比例21(,)/ipuikkmu xp(22)X组原始变量被iv 解释的方差比例21(,)/ipvikkmv xp(23)Y 组原始变量被iu 解释的方差比例21(,)/iquikknu yq(24)Y 组原始变量被iv 解释的方差比例21(,)/iqvikknv yq(25)5.5.3.43.4 理化指标典型相关分析理化指标典
43、型相关分析结合以上的理论的推导结果,我们尝试用典型相关分析来分析酿酒葡萄与葡萄酒的理化指标之间的联系。有关变量见下表表 9两组样本中的主成分X 组总糖总酚酚氧化酶活性苹果酸PH 值VC 含量白芦藜醇果硬比(1x)(2x)(3x)(4x)(5x)(6x)(7x)(8x)Y 组花色苷 单宁 总酚 酒总黄酮 白芦藜醇 DPPH 半抑制体积 色泽(细化为三类)(1y)(2y)(3y)(4y)(5y)(6y)(7y9y)用 MATLAB 编程即可实现两个样本之间关系的评估,得到酿酒红葡萄与红葡萄酒之间的相关系数如附录 6 所示。由附录 6 六个表格可以看出,所有九个表示酿酒红葡萄理化指标的变量都与2u有
44、大致相同的相关系数,因此 可以视为形容葡萄理化特性的指标。X 组的原始变量被18uu解释的比例为 1.000000(即 100%)Y 组的原始变量被18vv解释的比例为 0.923773(即 92.4%)由此可知,用典型相关分析来分析酿酒葡萄与葡萄酒的理化指标之间的关系具有较强的说服性和较好的准确性。5.45.4 酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响及对于能否用葡萄和葡酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响及对于能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量的论证萄酒的理化指标来评价葡萄酒的质量的论证5.4.15.4.1 酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响酿酒葡萄和葡萄
45、酒的理化指标对葡萄酒质量的影响鉴于我们对第 2 题的分析以及此问的特点,即同样具有明显的层次关系,我们同样采用基于归一法的层次分析模型,模型结构如图 7:酿 酒葡 萄葡萄酒的理化指标葡萄酒的质量花色苷单宁总酚酒总黄酮白藜芦醇DPPH自由基色素目标层准则层方案层图 7:层次模型结构由于白葡萄酒的理化指标中没有花色苷这一项,而红葡萄酒的理化指标中有这一项,所以在图 7 中花色苷这一项用虚线连接,以示区别。5.4.1.1 准则层判断矩阵的构造根据人们生活经验我们可以大致得出酿酒葡萄和葡萄酒的理化指标的所占重要性分值分别为 2、3,得其判断矩阵 E 为:12/33/21E用 MATLAB 可求出E的最
46、大特征值2=2,对应的特征向量为Ta832.0555.02,根据公式1nnCI对E进行一致性检验,得CI=0,则RC.等于 0,即为完全一致性,计算得准则层对目标层的权重向量为Tb6.04.02。5.4.1.2 方案层判断矩阵的构造我们分别对红葡萄酒和白葡萄酒的理化指标的方案层进行分析,分别给出重要性分值,如表 10:表 10:两种葡萄酒理化指标的方案层的重要性分值红葡萄酒因素分值白葡萄酒因素分值花色苷3-单宁7单宁7总酚3总酚3酒总黄酮4酒总黄酮4白藜芦醇5白藜芦醇5DPPH2DPPH2色素5色素5然后分别构造出红葡萄酒和白葡萄酒各自的判断矩阵 F、G:12/514/53/57/53/55/
47、215/22/13/27/23/212/514/53/57/53/55/425/413/47/43/45/32/35/34/317/315/72/75/74/73/713/75/32/35/34/317/31F12/514/53/57/55/215/22/13/27/212/514/53/57/55/425/413/47/45/32/35/34/317/35/72/75/74/73/71G对 于F,其 最 大 特 征 值 为73,对 应 的 特 征 向 量 为427.0171.0427.0342.0256.0598.0256.03Ta。对于G,其最大特征值为64,对应的特征向量为442.017
48、7.0442.0354.0265.0619.04Ta,分别对F、G进行一致性检验,得CI都等于零,即均为完全一致性,然后计算得F、G对应的权重向量分别为3b、4b:172.0069.0172.0138.0103.0241.0103.03Tb192.0077.0192.0154.0115.0269.04Tb,然后根据附件 2 中的数据,分别提取出红葡萄和白葡萄方案层中各因素占总的样品的比重,如附录 7设H为表 18 中从第二列到第八列数据所构成的矩阵,I为表 19 中从第二列到第七列数据所构成的矩阵,R、W为方案层各因素对准则层中葡萄酒的理化指标的比重,则有:43bIWbHR用 MATLAB 计
49、算得R、W的值,对于准则层中酿酒葡萄这一项比重在第 2问中已得出,即RR和WW,以下给出R、W、RR、WW四个值的综合表,如附录 8.5.4.1.3 方案层中各样品酒在目标层葡萄酒的质量这一项的总比重RR1、WW1分别为红葡萄酒样品、白葡萄酒样品在葡萄酒质量这一项上占的比重,则有:211bWWWRRRWWRRMATLAB 计算得 RR1、WW1的值,为方便解决第 4 问要求的论证,将1RR、1WW、1R、1W放在统一表格,如附录 9。5.4.2 对于能否用葡萄和葡萄酒的理化指标评价葡萄酒的质量的论证1RR、1WW代表的是各葡萄酒样品在葡萄酒质量上的比重,即葡萄酒样品的质量可以 由其对应的比重值
50、的大小来衡量,这种衡量是以葡萄和葡萄酒的理化指标为依据得出的,只需判断出这种衡量是否准确,即可论证是或否。由第 1问,知道第二组品酒员评分结果更可信,于是我们把第二组品酒员给各样品酒的评分均值作为葡萄酒真实质量。所以,只需对比各样品酒所求得的衡量质量与真实质量,观察和计算出二者是否具有相同或近似的变化关系,如果有,证明能用葡萄和葡萄酒的理化指标评价葡萄酒的质量,反之。图 8、9 分别为红葡萄酒所得衡量质量与真实质量一致关系比较图和白葡萄酒所得衡量质量与真实质量一致关系比较图:图 8:红葡萄酒论证图图 9:白葡萄酒论证图从图 8、9 我们看出,红葡萄酒所得衡量质量和真实质量有相似的变化关系,初步