《葡萄酒质量的评价fjwo.docx》由会员分享,可在线阅读,更多相关《葡萄酒质量的评价fjwo.docx(60页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、20122高教社社杯全国国大学生生数学建建模竞赛赛承诺书我们仔细细阅读了了中国大大学生数数学建模模竞赛的的竞赛规规则.我们完全全明白,在在竞赛开开始后参参赛队员员不能以以任何方方式(包包括电话话、电子子邮件、网网上咨询询等)与与队外的的任何人人(包括括指导教教师)研研究、讨讨论与赛赛题有关关的问题题。我们知道道,抄袭袭别人的的成果是是违反竞竞赛规则则的, 如果引引用别人人的成果果或其他他公开的的资料(包包括网上上查到的的资料),必必须按照照规定的的参考文文献的表表述方式式在正文文引用处处和参考考文献中中明确列列出。我们郑重重承诺,严严格遵守守竞赛规规则,以以保证竞竞赛的公公正、公公平性。如如有
2、违反反竞赛规规则的行行为,我我们将受受到严肃肃处理。我们授权权全国大大学生数数学建模模竞赛组组委会,可可将我们的的论文以任任何形式式进行公开开展示(包包括进行行网上公公示,在在书籍、期期刊和其其他媒体体进行正正式或非非正式发发表等)。我们参赛赛选择的的题号是是(从AA/B/C/DD中选择择一项填填写):A (隐去去论文作作者相关关信息) 日期:20112年9月10日赛区评阅阅编号(由由赛区组组委会评评阅前进进行编号号):20122高教社社杯全国国大学生生数学建建模竞赛赛编 号 专 用用 页赛区评阅阅编号(由由赛区组组委会评评阅前进进行编号号):赛区评阅阅记录(可可供赛区区评阅时时使用):评阅人
3、评分备注全国统一一编号(由由赛区组组委会送送交全国国前编号号):全国评阅阅编号(由由全国组组委会评评阅前进进行编号号):葡萄酒质质量的评评价摘要葡萄酒质质量的好好坏主要要依赖于于评酒员员的感观评价价,由于于人为主主观因素素的影响响,对于于酒质量量的评价价总会存存在随机机差异,为此找到一种简单有效的客观方法来评酒,就显得尤为重要了。本文通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标的关系,以及葡萄酒理化指标与葡萄酒质量的关系,旨在通过客观数据建立数学模型,用客观有效的方法来评价葡萄酒质量。首先,采采用双因因子可重重复方差差分析方方法,对红、白白葡萄酒酒评分结结
4、果分别别进行检检验,利利用Matlab软件件得到样样品酒各各个分析析结果,结结合数据据分析,发现对于红葡酒有的评价结果存在显著性差异,对于白葡萄酒只有53%的评价结果存在显著性差异。通过比较可知,两组评酒员对红葡萄酒的评分结果更具有显著性差异,而对于白葡萄酒的评分,评价差异性较为不明显。为了评价两组结果的可信度,借助Alpha模型用克伦巴赫系数衡量,并结合检验,得出红葡萄酒第一组评酒员的评价结果可信度更高,而对白葡萄酒的品尝评分,第二组评酒员的评价结果可信度更高。综合来看,主观因素对葡萄酒质量的评价具有不确定性。结合已分分析出的的两组品品酒师可可靠性结结果,对对葡萄酒酒的理化化指标进进行加权平
5、均,最最终得出出十位品品酒师对对样品酒酒的综合合评价得得分。将将每一样样品酒的的综合得得分与其其所对应应酿酒葡葡萄的理理化指标标(一级级指标)共共同构成成一个数数据矩阵阵,采用用聚类分分析法,利利用SPSSS软件件对葡萄萄酒样进进行分类类,根据据分类的的结果以以及各葡萄样品品酒综合合得分最终终将酿酒酒葡萄分分为A(优优质)、BB(良好好)、CC(中等等)、DD(差)四四个等级级,客观观地反映映了酿酒酒葡萄的的理化指指标与葡葡萄酒质质量之间间的联系系。为了分析析酿酒葡葡萄与葡葡萄酒理理化指标标之间的的联系,采采用相关关分析法法,能有有效地反反映出两两者间的的联系,取与葡萄各成分相关性显著的葡萄酒
6、理化指标,与葡萄成分做多元线性回归得出葡萄酒理化指标与酿酒葡萄的拟合方程,从而反映酿酒葡萄与葡萄酒理化指标之间的联系。由于已经经通过回归归分析建建立了酿酿酒葡萄萄和葡萄萄酒理化化指标之之间的关关系,因因此从酿酿酒葡萄萄成分对对葡萄酒酒的理化化指标的的影响,再再研究出出葡萄酒酒理化指指标与葡葡萄酒质质量的联联系,便可作作为一个个桥梁,反反映出葡萄与与葡萄酒酒理化指指标对葡葡萄酒的的质量的的作用。研究葡葡萄酒理理化指标标与葡萄萄酒质量量的联系系,需要运用用变量间间的相关关性及系系数法分分析葡萄萄酒的理理化指标标与葡萄萄酒质量量评价指指标的相相关性,通过比比较选出出与葡萄萄酒评价价的一级级指标相相关
7、性程程度大的的葡萄酒酒成分,进进行回归分分析法,建立酿酿酒葡萄萄的理化化指标与与葡萄酒酒质量之之间的拟拟合方程程,结合各各个质量量一级指指标的权权重,从从而完成成了从葡萄萄酒成分分对葡萄萄酒质量量的客观观评价。综综合计算算结果,与与酿酒葡葡萄分级级的结果果吻合,所所以分析析结果较较客观。关键词:葡萄酒酒 双重重多因素素分析数数据分析析 Allphaa模型 聚类类分析及及欧式距距离相关性分分析 多多元回归归 系数数法1. 问题重述述葡萄酒的的感官质质量是评评价葡萄萄酒质量量优劣的的重要标标志。确定葡葡萄酒质质量时一般是是通过聘聘请一批批有资质质的评酒酒员进行行品评。每每个评酒酒员在对对葡萄酒酒进
8、行品品尝后对对其分类类指标打打分,然然后求和和得到其其总分,从从而确定定葡萄酒酒的质量量。酿酒酒葡萄的的好坏与与所酿葡葡萄酒的的质量有有直接的的关系,葡葡萄酒和和酿酒葡葡萄检测测的理化化指标会会在一定程程度上反反映葡萄萄酒和葡葡萄的质质量,可可辅助感官官检查。附附件1给给出了某某一年份份一些葡葡萄酒的的评价结结果,附附件2和和附件33分别给给出了该该年份这这些葡萄萄酒的和和酿酒葡葡萄的成成分数据据。试建建立数学学模型求求解下列列问题:1. 分分析附件件1中两两组评酒酒员的评评价结果果有无显显著性差差异,哪一组组结果更更可信?2. 根根据酿酒酒葡萄的的理化指指标和葡葡萄酒的的质量对对这些酿酿酒葡
9、萄萄进行分分级。3. 分分析酿酒酒葡萄与与葡萄酒酒的理化化指标之之间的联联系。4分析析酿酒葡葡萄和葡葡萄酒的的理化指指标对葡葡萄酒质质量的影影响,并并论证能能否用葡葡萄和葡葡萄酒的的理化指指标来评评价葡萄萄酒的质质量?2. 问题分析析酿酒葡萄萄的好坏坏与所酿酿葡萄酒酒的质量量有直接接的关系系,葡萄萄酒和酿酿酒葡萄萄检测的的理化指指标会在在一定程程度上反反映葡萄萄酒和葡葡萄的质质量,本本题要求求通过酿酿酒葡萄萄的理性性指标和和酿酒师师给予的的评分,综综合考虑虑酿酒葡萄萄的理性性指标与与葡萄酒酒的质量量的关系系。问题一:要求对两两组评酒酒员评价价结果有有无差异异性进行行分析,并并分析得得出哪一一组
10、的品品酒员的的结果更更具有可可信。通过绘制制每个样样品酒的的均值评分分差异图图,对每每个样品品酒的两两组评酒员在在各个指指标的均均值进行行比较,发发现对于于红葡萄萄的评价价,两组组评酒员还还是存在在着显著著性的差差异的,而而对于白白葡萄酒酒的评价价,两组组评酒员的的差异性性并不是是很明显显,列举部分分红、白葡萄萄酒评分分差异图图如下:图表 1红葡萄萄酒样品品12差差异图(左左边),系系列1为为第二组组品酒员员打分均值值,系列列2为第第一组品品酒员打打分均值值。图表 2红葡萄萄酒样品品15差差异图(右右边),横坐标标为100个指标标变量,包包括澄清清度、色色调、香香气纯正正度、香香气浓度度、香气
11、气质量、口口感纯正正度、口口感浓度度、口感感质量以以及整体体评价。针对两组组评酒员员在大量量差异图图中表现现出来对对红、白白葡萄酒酒的评价价存在差差异,对对红、白白葡萄酒酒进行分分开地显显著性检检验。第一步,利用每个样品酒都具有两组评酒员的评价结果,对两组结果进行双因子可重复方差分析,得出题中给出的27种葡萄样品酒各个分析结果。比较27个显著性检验的结果,若具有显著性差异的样品酒占总样品酒的比例高于,有足够的把握认定两组评酒员的评价结果具有显著性差异。第二步,对对两组评评酒员给给予红、白白葡萄酒酒的打分分进行可可信性分分析,将将红、白白葡萄酒酒分别进进行可信信度分析析,比较较两组评评酒员对对不
12、同种种类葡萄萄酒的评评价是否否具有各各自的优优势。在进行双双因子多多重分析析和可信信性分析析之前,需需要对原原先数据据进行如如下处理理:1.对于于附件11给出的的数据,先先将两组组品酒员员的评价价结果按按着样品品酒进行行统一划划分,每每一样品品酒对应应着两种种评价结结果。将将每一样样品酒的的评价结结果组成成评价矩矩阵,矩矩阵以葡葡萄酒的的评价指指标为列列项,共共10列列,以每每个评酒酒员作为为横向量量,共220行。2.针对对红葡萄萄酒样品品20评评酒员44号对色色调的评评分缺失失,利用用同组评评酒员对对红葡萄萄酒样品品20色色调评分分的平均均值作为为4号评评酒员的的评分值值。做可信度度分析时时
13、,将两两组的227种酒酒样品评评价结果果组成两两组评价价总矩阵阵,以葡葡萄酒的的评价指指标为列列项,共共10列列,以每每个评酒酒员作为为横向量量,共2270行行,分别别用SPPSS119.00对两组组矩阵进进行信度度分析,目目的是对对量表的的可靠性性与有效效性进行行检验,判判断出哪哪一组可可信度更更高。问题二:问题二要要求对酿酿酒葡萄萄进行分分级,酿酿酒葡萄萄的成分分直接影影响葡萄萄酒的质质量,选选取优质质营养成成分高的的酿酒葡葡萄酿酒酒,保证证了葡萄萄酒的营营养价值值和保健健价值。但但是葡萄萄酒质量量优劣,不不单单从从营养成成分和养养身价值值上考虑虑,一瓶瓶优质的的葡萄酒酒,还得得具备着着可
14、观赏赏性,纯纯正的口口感、芬芬芳的酒酒香等优优点,而而这些优优点,都都得由评评酒员来来给出评评价。所以,对对酿酒葡葡萄进行行分级,不不单单从从葡萄的的成分上上考虑,还还得结合合最终酿酿成的葡葡萄酒质质量综合合考虑。因因此将酿酿酒葡萄萄的各成成分与评评价员给给予所酿酿成的葡葡萄酒的的质量打打分综合合起来,进进行聚类类分析,将将酿酒葡葡萄依据据综合指指数进行行分类,结结合聚类类分析的的结果以以及综合合指标的的分数将将葡萄划划分等级级。依据据:在进行据据聚类分分析之前前,需要要对原始始数据进进行预先先处理1. 分别别计算附附件一中中评酒员员各项评评分指标标的权重重并加和和,最后后求取110位评评酒员
15、的的权重平平均值作作为葡萄萄酒样品品的综合合评价指指标。2. 用酿酿酒葡萄萄各项理理化指标标(多次次测得的的取平均均值)以以及酒样样的综合合指标形形成一个个31列列28行的原原始资料料阵,并并用SPPSS 的标准准化将数数据标准准化。问题三:酿酒葡萄萄和葡萄萄酒的理理化指标标都很多多,为了了找出它它们之间间的联系系,首先先将葡萄萄的成分分与葡萄萄酒的理理性指标标列成一一个大矩矩阵,分分析葡萄萄成分与与葡萄酒酒理想指指标的相相关性,找找出它们们之间相相关性大大的指标标,与葡葡萄成分分做多元元线性回回归得出出葡萄酒酒理化指指标与酿酿酒葡萄萄的拟合合方程,从从而反映映酿酒葡葡萄与葡葡萄酒理理化指标标
16、之间的的联系。1. 酿酒葡萄萄的成分分和葡萄萄酒的理理化指标标列成一个个大矩阵阵。2. 通过SPPSS软软件做相相关性分分析,选选取与葡葡萄酒理理化指标标相关性性程度大大的葡萄萄酒成分分个指标标,建立立拟合方程程。问题四:酿酒葡萄萄的理化化指标并并不能直直接与葡葡萄酒的的质量建建立联系系,由于于在问题题3中已已经通过过相关性性分析建建立了酿酿酒葡萄萄和葡萄萄酒理化化指标之之间的关关系,因因此我们们分析葡葡萄酒的的理化指指标与葡葡萄酒质质量的相相关性,计计算相关关性系数数,通过过比较选选出系数数高的即即与葡萄萄酒质量量指标相相关性程程度大的的葡萄酒酒成分,进进而用回回归分析析法建立立酿酒葡葡萄的
17、理理化指标标与葡萄萄酒质量量之间的的关系。1附表表一中列列出了十十位品酒酒员对葡葡萄酒外外观、香香气和口口感分析析三者的的数据,用用Mattlabb7.66.0bb,分别别对四项项指标求求27(228)种种红(白白)葡萄萄酒样品品权重平平均值作作为葡萄萄酒质量量的评价价指标。2. 通通过SPPSS软软件作因因子分析析分析两两者之间间的相关关性,选选取与葡葡萄酒质质量指标标相关性性程度大大的葡萄萄酒成分分个指标标,建立立拟合方程程。3. 符号说明明显著性水水平置信度误差平方方和行组间误误差列组间误误差组内误差差克伦巴赫赫系数明考斯基基距离欧式距离离4. 模型假设设(1) 假设数据据来源真真实有效
18、效(2) 假设各变变量的相相差微小小,各坐坐标对欧欧式距离离的贡献献是同等等的且变变差大小小相同,欧欧氏距离离效果理理想。(3)假假设酿酒酒工艺条条件相同同,无其其他人为为因素影影响(4)为为低信度度,则尚可可,若则属于于高信度度。假设组组一与组组二评分分分别处处于不同同信度区区间,可可信度差差异明显显。5. 建模过程程5.1. 问题一的的建模与与求解模型建立立:利用双因因素可重重复方差差分析结结合0-1分析析检验两两组评酒酒员的评评价结果果有无显显著性差差异1.双因因子可重重复方差差分析的的统计模模型。假假设在两两因子方方差分析析中,因因子共有有个水平平,记作作,每个个水平下下,进行行次试验
19、验,因子子共有个水水平。一一个典型型的双因子方方差分析析的数据据结构如如下表所所示。表格 1 双因因子可重重复方差差分析的的数据结结构因子因子为因子的的某个水平平下第试验所所得结果果,表示因因子的第第个水平平,。第列数数据为因因子的第第个水平平下所考考察的变变量取值值,每一一列为一一个总体体,=11,2,。所以一个两因子方差分析的数据结构表里,共有个总体,在本题中,。下表给出因子所对应的各个指标:指标外观澄清清度外观色调调香气纯正正度香气浓度度香气质量量口感纯正正度口感浓度度口感持久久性口感质量量整体得分分给出双因因子可重重复方差差分析的的原假设设和备择择假设:当原假设设为真时时,说明明两组评
20、评酒员的的评价结结果不存存在显著著性差异异,反之之称两组组评酒员员的评价价结果存存在着显显著性影影响因素素。当原原假设为为真时,说说明选取取的各个个指标对对评价结结果没有有显著性性影响,在本题题中,显显然原假假设是不不成立的的,后续续的检验验将证明明这点。2.两因因子方差差分析的的方差分分解。(1)误误差平方方和。每每一个观观察值与与总平均均值之间间的离差差平方和和称为误误差平方方和,记记作=其中,称称为总均均值。(2)行行组间误误差。双双因子误误差平方方和分解解的第一一部分,称称为行组组间误差差,记作作=(3)列列组间误误差。双双因子误误差平方方和分解解的第二二部分,称称为列组组间误差差,记
21、作作=(4)组组内误差差。双因子误误差平方方和分解解的第三三部分,称称为组内内误差,记记作=行组间误误差衡量量的是行行因子不不同水平平之间的的差异,列列组间误误差衡量量的是列列因子不不同水平平之间的的差异。它它们的误误差值中中既包含含随即误误差也包包含了因因子影响响的系统统误差。所所以判断断行(列列)因子子是否有有显著性性影响,主主要考察察行(列列)组间间误差和和组内误误差之间间的差异异大小。如如果行(列列)组间间误差和和组内误误差很接接近,就就认为行行(列)因因子无显显著性影影响。反反之,认认为行(列列)因子子有显著著性影响响。两因子方方差分析析的检验验统计量量。其中。根据单因因素方差差分析
22、推推导,有有行组间间误差服服从自由由度为的的分布列组间误误差服从从自由度度为的分布剩余的列列组服从从自由度度为的分布则两因素素方差分分析的检检验统计计量为如如下两个个:(1) 行检验统统计量。(2) 列检验统统计量。双因子可可重复方方差分析析的结果果判定当显著性性水平为为时,如如果,拒绝,说明两两组评酒员的的评价结结果存在在显著性性差异;等价的的值检验验是,当当值时,拒拒绝原假假设;综合来来讲,当当,或值时,拒拒绝原假假设。0-1数数据分析析在给定条条件下,对对于有个个样品酒酒来说(红红葡萄酒酒,白葡葡萄酒),定定义函数数: (1)其中为每每个样品品酒的值值。给定置信信度: (2)对个样品品酒
23、的双双因子可可重复方方差检验验后,得得出值,则则认为在在置信水水平下,两两组评酒酒员的评评价结果果存在着着显著性性差异。Alphha模型型进行可可靠性分分析克伦巴赫赫系数:测度内内部一致致性的一一个指标标,与皮皮尔逊系系数都是是一样的的范围在在01 之之间,如如果为负负值则表表明表中中某些项项目的内内容是其其他一些些项目的的反面;越接近近于1,则则量表中中项目的的内部一一致性越越是高,可可信度越越大。根根据量表表中的项项目数和和各项之之间的相相关系数数计算得得出当量表中中项目增增加时,值也会增大;同时,项目之间的相关系数较高时,也会比较大。这里的是指各项与其他各项之和计算相关系数的平均值。模型
24、求解解:双因子可可重复方方差分析析模型检检验利用Maatlaab7.6.00的函数对对已经预预处理的的数据进进行双因因子可重重复方差差分析,可以得到每个样品酒的检验结果,列举两个检验结果如下所示:提取每个个样品酒酒的所对对应值,然后后结合公公式(11)、公公式(22)进行行0-11分析,得到红、白葡萄酒的各个样品酒的如下:图表 3模型检检验结果果红葡萄酒酒值以及及值,得得到0.1889711 0.0000011 0.0000400 0.0002122 0.1663144 0.0001388 0.0004866 0.0003344 0.0224766 0.0000000 0.0000022 0.
25、0000111 0.3664799 0.2118700 011101111111000.0000466 0.8001000 0.0000211 0.5664144 0.1775444 1.0000000 0.0000022 0.0446866 0.0111311 0.0000177 0.0000866 0.0001122 0.0000455 1010001111111白葡萄酒酒值以及及值,得到到0.0001033 0.0000011 0.1007777 0.3111155 0.5006133 0.0110600 0.3449400 0.6779366 0.0003299 0.0004600 0
26、.0000088 0.0885855 0.0000111 0.2003100 110001001110100.0117144 0.0333333 0.0113811 0.1994766 0.0003399 0.4440788 0.0000344 0.0000055 0.6883344 0.4667100 0.0000311 0.1666322 0.1336488 0.0000011 11101011001001模型结果果分析分析图标标3的结结果,可可以知道道,对于于红葡萄萄酒来说说,对227个葡葡萄酒样样品评分分检验中中,有770.33%的评评价结果果中,两两组评酒员的的评价结结果存在在着显著
27、著性差异异(置信信水平为为95%)。对对于白葡葡萄酒的的28个个葡萄样样品评分分的检验验,只有有53%的评价价结果中中,两组组评酒员员的评价价结果存存在显著著性检验验(置信信水平为为95%)。这样的的结果,符符合之前前问题分分析中,各各个组队队样品酒酒的评分分均值差差异图。即即:两组组评酒员员对红葡葡萄的评评分结果果更具有有显著性性差异,而而对于白白葡萄酒酒的评分分,两组组评酒员员的评价价差异性性较不明明显。Alphha模型型的可靠靠性分析析1. 利用SPPSS119.00进行可靠靠性统计计量对红红葡萄酒酒的两组组品酒员员评分的的分析第一组红红葡萄酒酒案例处处理汇总总第二组红红葡萄酒酒案例处处
28、理汇总总%案例有效26899.33案例有效270100.0已排除2.7已排除0.0总计270100.0总计270100.0第一组红红葡萄酒酒可靠性性统计量量第二组红红葡萄酒酒可靠性性统计量量基于标准准化项的的项数基于标准准化项的的项数.8744.906610.7500.786610若将某一一项目从从量表中中剔除,则则量表的的平均得得分、方方差(每每个项目目得分与与剩余各各项目得得分间的的相关系系数、以以该项目目为自变变量所有有其他项项目为应应变量建建立回归归方程的的值以及及值将会会改变。有有表知第第一组数数据中剔剔除了两两项,增增加到00.8774,第第一组评评酒员红红葡萄酒酒的,组组2尚有有
29、35%的内容容未曾涉涉及,故故信度不不高。表格 2第一组组红葡萄萄酒平方和均方人员之间间人员内部部 项之之间残差总计总均值 = 77.31149477.2118319338.449456233.5006375662.0000425009.2218267924033241222679918.552935488.72222.344015.557315.886815166.4117.0000类内相关关性95% 置信区区间使用真值值 0 的 F 检验下限上限值单个测量量.4099b.3622.46007.911826724033.0000平均测量量.8744c.8500.89557.911826724
30、033.0000表格 3第二组组红葡萄萄酒平方和均方人员之间间12322.5444340117.004027788.2660367995.3300380227.884426992421124300269994.588237799.67711.144815.114214.009032933.6339.0000人员内部部 项之之间残差总计总均值 = 77.055类内相关关性95% 置信区区间使用真值值 0 的 F 检验下限上限值单个测量量.2300.1911.27663.999326924211.0000平均测量量.7500.7033.79223.999326924211.0000分析比较较两者的
31、的F检验验表明,=5166.4117=32993.6639,组2的显显著性更更强, 而、均小于0.01,表示两两组该量量表的重重复度量量效果良良好。综综合分析析结果表表明,组组一的评评酒员可可信度更更高。(2)可可靠性统统计量对对白葡萄萄酒的两两组品酒酒员评分分进行分分析同样利用用SPSSS可靠靠性分析析,建立立Alppha模模型对白白葡萄酒酒的品酒酒员评分分数据进进行检验验,发现现不同种种类的酒酒,因其其酿造,成成分的不不同,品品酒员对对葡萄口口感,质质量的分分析评价价上有差差异,得得出第一一组品酒酒员白葡葡萄酒的的、,组22的显著著性更强强,、均小于0.01 表示示两组该该量表的的重复度度
32、量效果果良好。综综合分析析结果表表明,白白葡萄酒酒组二的的品酒员员可信度度更高。5.2. 问题二的的建模与与求解模型建立立:聚类分分析及欧欧式距离离对样品和和指标(变变量)进进行分类类主要采采用聚类类分析法法,而求求取样品品以及类类之间的的距离有有多种方方法,其其中主要要使用欧欧式距离离和最短短距离法法。(1) 数据标准准化由于所选选数据的的量纲和和数值大大小都不不一致,数数值的变变化范围围也不同同,因此此必须首首先对所所选数据据进行标标准化处处理,如如果有个个样本,个个样本有有个指标标,则每每个变量量可表示示为,均均值标准方差差则标准化化后 (2)聚聚类距离:对对样品进进行聚类类时,“靠近”
33、往往由由某种距距离来刻刻画。若若每个样样品有个个指标,故故每个样样品可以以看成维维空间中中的一个个点,个个样品就就组成维维空间中中的个点点,样品品与指标标构成一一个矩阵阵,此时时就可以以用距离离来度量量样品之之间的接接近程度度。令表示第第个样品品的第个个指标,表示第个样品与第个样品之间的距离,最常见最直观的计算距离的方法是:明考斯基基距离()当时, 即为绝绝对距离离当时, 即为欧欧氏距离离当时称为切比比雪夫距距离。当各变量量的测量量值相差差悬殊时时,为了了计算的的准确性性,需先先将数据据标准化化,然后后用标准准化后的的数据进进行计算算。系统聚类类;,将将个样品品各自看看成一类类,然后后规定样样
34、品之间间的距离离和类与与类之间间的距离离。开始始,因每每个样品品自成一一类,类类与类之之间的距距离与样样品之间间的距离离是相等等的,选选择距离离最小的的一对并并成一个个新类,计计算新类类与其他他类的距距离,再再将距离离最近的的两类合合并,这这样每次次少一类类,直至至所有的的样品都都成一类类为止,最最终完成成养分的的分类。计计算类与与类之间间的距离离主要有有:(1)最最短距离离法:设、分分别为一一类,则则最短距距离的计计算公式式为:此时将类类与类合并并为类,则则任意的的类和的距离离公式为为依次下去去,最终终完成对对样品的的分类。(2)最最长距离离法将类与类类合并为为类,则则任意的的类和的距离离公
35、式为为(3)类类平均法法将类与类类合并为为类,则则任意的的类和的距离离公式为为(4)重重心法将类与类类合并为为类,则则任意的的类和的距离离公式为为模型求解解:根据据欧式距距离对酿酿酒葡萄萄分类(1)对对红葡萄萄酒进行行分类将附件中中的组一一评酒员员评价标标准,算算出各项项所占权权重并加加和,最最终求得得十位品品酒员对对每个葡葡萄酒样样品的平平均值,作作为277种酒样样品的综综合评价价指标,并并用葡萄萄酒的综综合指标标以及酿酿酒葡萄萄的理化化指标形形成一个个31列列28行行的原始始资料阵阵,将其其数据标标准化,通通过sppss进进行聚类类分析,得得到酒样样品的八八个类别别,并列列出每个个酒样品品
36、所对应应的综合合指标,得得出下表表以及聚聚类分析析树状图图图表3:不同来来源红葡葡萄酒聚聚类分析析第一类酒样品12186715综合评价价指标6.98847.62238.98858.89977.3009第二类酒样品13194162722综合评价价指标9.39959.75538.4559.34489.13359.52291724520269.90019.70069.07719.81179.1339第三类酒样品25综合评价价指标8.5771第四类酒样品814综合评价价指标9.00039.2004第五类酒样品17.799第六类酒样品3212923综合评价价指标10.00749.666910.22011
37、0.113810.7716第七类酒样品10综合评价价指标9.2004第八类酒样品11综合评价价指标8.6662表格 4葡萄酒酒的分类类与综合合评价指指标观察表中中数据,不不难发现现红葡萄萄酒样品品1、110、111、225单独独化为一一类,而而不与综综合指标标相近的的酒品类类为一组组,根据据这四种种葡萄酒酒的理化化指标以以及酿酒酒葡萄的的成分对对综合指指标相近近的组类类进行分分析比较较,得出出酒品11的花色色苷含量量高达4408.0288 mgg/1000g鲜鲜重,单单宁222.0119 mmol/kg、总总酚233.6004、总总黄酮99.4880mmmol/kg、顺顺式白藜藜芦醇33.19
38、95mgg/kgg均高于于第一类类酒样品品理化指指标的数数据。红红葡萄酒酒样品110、111、花花色苷含含量较低低,白藜藜芦醇含含量较高高,样品品25氨氨基酸含含量较低低,果穗穗质量含含量较高高,均与与指标相相近的类类别的理理化指标标数据有有较大差差异。据据资料分分析得,新新酒主要要以花色色苷为主主色调,陈陈酒种单单宁起主主导作用用。有单单宁存在在,花色色苷将减减少。氨氨基酸的的含量与与人体血血液中的的氨基酸酸有着密密切联系系,与脯脯氨酸成成负相关关,但与与缬氨酸酸成正相相关。这这些含量量的高低低会影响响葡萄酒酒口感、色色泽、纯纯正度,从从而评酒酒员对酒酒的分数数存在差差异。因因此,聚聚类分析
39、析结果在在对各项项理化指指标进行行数据处处理时,达达不到组组间距离离。结合综合合指标的的高低以以及聚类类分析的的结果,以以及每一一种酿酒酒葡萄所所对应的的红葡萄萄酒样品品,将酿酿酒葡萄萄分为AA、B、CC、D。分分别代表表优质、良良好、中中等、差差四个等等级:如如下表A葡萄样品品3212923综合评价价指标10.00749.666910.220110.113810.7716B葡萄样品品13194162722综合评价价指标9.39959.75538.4559.34489.13359.52291724520269.90019.70069.07719.81179.1339C葡萄样品品25814111
40、0综合评价价指标8.57719.00039.20048.66629.2004D葡萄样品品121867151综合评价价指标6.98847.62238.98858.89977.30097.799表格 5酿酒葡葡萄(红红)的等等级划分分(1)对对酿酒葡葡萄(白白)进行行分类由问题一一知,第第二组评评酒员对对白葡萄萄酒评价价可信度度更高,用用聚类分分析的欧欧式距离离可分出出不同组组类,根据综综合指标标的高低低划分出出A、BB、C、DD(分别代代表优质质、良好好、中等等、差)四个等等级:其其中葡萄萄样品氨氨基酸总总量50022.14mmg/1100gg、酒石石酸111.7990g/L、不不含柠檬檬酸、葡
41、葡萄花色色苷含量量较低、葡葡萄褐变度、黄黄酮醇含含量均远远远高于于同组水水平、因因此这33种酿酒酒葡萄的的理化指指标与其其综合指指标相近近的组类类有一定定的差异异而达不不到组间间距离,单单独分为为一组。表格 6酿酒葡葡萄(白白)的等等级划分分A葡萄样品品1722综合指标标10.11489.9115B葡萄样品品618715113综合指标标9.49929.68829.23379.80029.55549.78859.3331C葡萄样品品52092841421综合指标标10.22369.588210.0029.95579.69959.6559.9771葡萄样品品23262121024D综合指标标9.5
42、9999.29999.50039.099210.00589.5991葡萄样品品8111916综合指标标9.02258.94429.600410.0028.50039.35.3. 问题三的的建模与与求解模型建立立相关性分分析相关分析析是描述述两个变变量间关关系的密密切程度度,主要要由相关关系数值值表示,当当相关系系数的绝绝对值越越接近于于1,则则表示两两个变量量间的相相关性越越显著。双双变量系系数测量量的主要要指标有有卡方类类测量、SSpeaarmaan相关关系数、ppearrsonn相关系系数等,由由于酿酒酒葡萄和和葡萄酒酒的数据据为定距距数据,则则在进行行两者间间的相关关性检验验时用ppearrsonn相关系系数来判判断,其其公式为为:Pearrsonn简单相相关系数数检验统统计量为为:其中统计计量服从从个自由由度的分分布。回归分析析多元回归归分析是是研究多多个变量量之间关关系的回回归分析析方法,确确定变量量之间数数量的可可能形式式,并用用数学模模型表示示如下:其中为截截距项,为偏回归系数,为残差项。多元回归归方程及及其显著著性检验验建立模型型,要对对模型进进行拟合合度检验验,回归归方程的的显著性性检验就就是检验验样本回回归方程