《多变量统计分析在芝麻香型白酒科研生产中的应用初探.doc》由会员分享,可在线阅读,更多相关《多变量统计分析在芝麻香型白酒科研生产中的应用初探.doc(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、多变量统计分析技术在芝麻香型白酒科研生产中的应用初探随着白酒科学技术的进步,越来越多的新技术被应用于白酒行业,白酒行业对新技术的需求也越来越强烈。希望通过新科学技术的应用,为白酒行业带来新的力量,让这个古老的行业焕发新的生机。以计算机为主要工具的多变量统计分析技术,被普遍应用于各行各业,在科研和生产中都发挥着越来越重要的作用。上世纪九十年代初期,轻工部发酵研究设计院胡国栋先生,首先将此项技术应用于白酒香型的研究,对芝麻香型、兼香型、特香型的确立,起了重要的作用,但后来未见广泛应用的报导。近年来,随着色谱分析技术的发展,为统计分析在白酒香味成份研究中的应用提供了更好的条件,统计分析软件的发展也非
2、常快。我们选择了应用广泛的SPSS软件的最新版本,在胡国栋先生的指导下,将这一高效工具应用于芝麻香研究过程,做了初步探索,取得了初步的成果。1 基本思想:1.1 选取典型性好的芝麻香样品色谱数据,进行统计分析,获得芝麻香色谱数据的统计参数,包括部分重要的理化成份(这些数据要进行选择,否则一些不太重要的成份可能产生较大的负面影响,甚至产生错误的结果)的含量范围,一些重要成份间的量比关系等,建立芝麻香理化参数数据库。选取典型性好的芝麻香样品工艺数据,进行统计分析,获得芝麻香的工艺参数,包括入池温度、酸度、淀粉含量、发酵过程中温度、出酒率等,建立芝麻香工艺参数数据库。1.2 利用这些数据库的数据和多
3、变量统计分析技术,对总体样品及新产酒的各项参数进行统计分析,用于日常生产管理和科研。通过实际生产和研究的反馈,不断将新得到的数据充实到数据库中,并根据总体数据修改各项参数的合理范围和中心值,增加或删除组分,使这些量比关系更能体现芝麻香的风格特征。通过对大量数据的积累和生产实践的研究,使数据库不断完善,对生产和科研产生更高的价值。2 实现:2.1 经验数据收集整理 由于原酒数据比较分散,不易分析,所以先将芝麻香数据使用SPSS统计分析软件的Hierarchial Cluser方法,进行全成份的分类筛选,选取较集中的样品数据,使较分散的原酒数据收敛。在对125个芝麻香数据进行筛选后,得到73个样品
4、数据收入芝麻香经验数据库,其中优级酒样品24个,一级酒样品42个,二级酒样品7个。 对经验库的样品使用SPSS的Frequencies方法,获得各个组分的描述性统计数据,包括均值、中值、标准差、方差、最大值、最小值等,组织人员进行分析研究,根据实际经验和分析得到的数据,确定部分重要组分的标准值和变化范围,包括四大酸、四大酯、糠醛、苯乙醇、乙缩醛、3甲硫基丙醇、3羟基2丁酮、苯甲醛、正丙醇、乙醛等。使用SPSS软件的Compute方法计算各重要组分间的量比关系,包括总酯(四大酯)、乙酸乙酯/总酯、乙酸乙酯/乳酸乙酯、己酸乙酯/乳酸乙酯、丁酸乙酯/乳酸乙酯、乙酸乙酯/乙酸、丁酸乙酯/丁酸、乳酸乙酯
5、/丙酸、乙缩醛/乙醛等的标准比例和变化范围。 对经验库的样品使用SPSS的Discriminant Analysis做分类判别分析,数据基本分类有一些交叉,鉴于口评结果有一些误差,也为使分类更明确,对部分样品的级别进行了调整(但必须保证只在相邻级别间调整,这样使正确率仍能达到90左右)。对8个样品的级别进行了调整后,优级酒为28个,一级酒为36个,二级酒为10个。得到判别分类图(见图1):2.2分析方法的应用2.2.1 用于入库分级和产品质量分析 分级入库是重要的生产环节,它不仅是对生产工艺过程的检验,又为分级贮存、勾兑调味奠定基础。浓香型酒已有比较成熟的分析数据和评尝相结合的方法,由于芝麻香
6、是一种复合的香味,所以对入库酒的分级过去全靠经验,为提高其准确性、科学性,我们使用了统计分析方法。由图1可见,对经验库进行必要的调整后,使用多变量统计分析技术可以将优级酒、一级酒和二级酒进行分类,并且分类中心和分组趋势明显,已可以作为对新酒进行分级的基本数据标准。 将新产酒的理化数据进行处理,计算各量比数据,与标准数据进行比较。使用SPSS的Hierarchial Cluser方法和Discriminant Analysis方法,进行全成份量比关系的整体分析,对样品的理化数据和分布趋势进行研究,为入库分级和产品质量分析提供依据。图1 优级酒 一级酒+ 二级酒分组中心(图1)应用实例:从总的样品
7、库中抽取20个数据进行分级判别和数据分布趋势观察(尽量抽取未被选入经验库的样品)。对抽取的20个样品,使用经验库生成的判别函数进行判别分析,结果见下图(图2):图2 优级酒 一级酒+ 二级酒 分析样品分组中心分析样品1931711725201819106841312161514(图2)从表1(抽取的20个样品详细数据见表1)可知,口评结果中,1、8、9、16为二级酒;3、4、11、12、13、14、15为优级酒;2、5、6、7、10、17、18、19、20为一级酒。从图2可以看到,一级酒6号进入二级酒区间,二级酒9号进入优级酒区间,一级酒5号、19号进入优级酒区间,一级酒17号和优级酒11号、
8、15号在一级酒与优级酒分界线附近。图2虽然与口评有一定的差别,但这种差别并不表示统计分级的结果错误。口评和统计分级都作为入库分级的参考,对有差别的样品,应再根据统计分析的分布趋势和口评做进一步的综合评定,以确定合理的入库级别。因此,这对于样品分级和研究样品变化趋势有较高的实用价值。表1样品名称日期编号口评分级特白11号郭19-1池16-May-200612二级特白-11号郭17-2池20-Jan-200682二级特白-14号李17-Jan-200692二级特白-8号郭19-2池10-Jan-2006162二级特白13号郭18-2池22-May-200624一级特白9号郭17-21池24-Dec
9、-200564一级特白-10号郭18-2池15-Jan-200674一级特白-9号渣混郭11-Dec-2005184一级特白13号郭15-5池2-Jan-200655一级特白8号郭18-5池22-Dec-2005105一级特白-9号郭19-4池12-Jan-2006175一级特白6号张26-4池1-Jul-2006195一级特白15号郭17-3池27-Jun-2006205一级特白16号李4-4池17-May-200636优级特白-6号张连24-2池8-Mar-200646优级特白17号郭16-3池1-Jul-2006126优级特白22号李6-5池27-Jun-2006146优级特白3号张连2
10、7-1池21-Dec-2005156优级特白16号郭17-5池29-Jun-2006117优级特白-5号张连27-3池19-Jan-2006137优级2.2.2 用于改进工艺,提高质量将样品的理化数据进行处理,计算各量比数据,与标准数据进行比较,找出超出正常范围数据的样品。对符合基本理化数据要求的样品,再使用SPSS的Hierarchial Cluser方法和Discriminant Analysis方法,进行全成份量比关系的整体判别,对被明显分类或偏离分类中心的样品视为异常样品。对异常样品的异常理化成份和分布趋势进行研究。由于理化分析的局限性,得到的结果仅是理化数据较特殊的样品。所以,对异常
11、样品应一分为二,对典型性仍然好的样品,进行合理的分析研究,对得到的有益结果再应用于下一步的生产和科研;对问题样品中典型性不好的样品,结合工艺数据库及专业经验综合分析、判断,发现实际生产中的问题,并采取措施加以纠正,防止再次发生,这就起到了改进工艺的作用。应用实例:在对未被选入经验库的芝麻香数据处理过程中,发现有9个样品的数据全变量综合分析明显异常,见下图(图3):图3分组中心分析样品再对理化及组分量比关系分析,发现更突出的是有5个样品的乙酸乙酯与乳酸乙酯比之超过1,甚至达到1.8,而正常的乙乳比在0.20.9之间。详见下表2:表2编号样品名称日期口评乙酸乙酯乳酸乙酯乙乳比1特白-13号李13-
12、Jan-2006二级2,112.01,176.51.802特白12号郭15-3池31-Dec-2005二级4,067.42,852.81.433特白13号郭15-5池2-Jan-2006一级2,067.91,601.71.294特白-1号张连25-3池26-Jan-2006二级2,182.72,049.61.065特白-7号郭19-1池9-Jan-2006一级1,639.81,587.51.03现有数据库中芝麻香各种主要酯之间的比例关系:表3表3项目乙酸乙酯乳酸乙酯乙乳比己乳比丁乳比乙酸乙酯比总酯均值1393.89 2883.83 0.50 0.12 0.04 0.29 中值1347.70 2
13、873.55 0.47 0.11 0.04 0.28 标准差299.45 330.55 0.14 0.06 0.01 0.06 全距1599.10 1548.80 0.65 0.25 0.07 0.28 极小值713.30 2165.80 0.20 0.04 0.02 0.15 极大值2312.40 3714.60 0.85 0.29 0.09 0.43 查看表2中5个乙乳比大于1的样品的工艺参数,见表4、表5:表4池号入池出池水份酸度淀粉水份酸度酒度特白-13号李56.21.562.53.84.4特白12号郭15-3池55.81.162.83.64.3特白13号郭15-5池56.91.215
14、.6362.44.03.4特白-1号张连25-3池57.91.515.0361.03.33.6特白-7号郭19-1池58.01.4560.23.23.7正常值对比57.01.715.061.53.64.0表5池号堆积入池123456789101112特白-13号李4228313639404040393836363534特白12号郭15-3池4329313538404040403937363535特白13号郭15-5池4131333739414040393836363534特白-1号张连25-3池4330323740414040393737363535特白-7号郭19-1池42283135384
15、04039393838363535正常值对比4831343639414342414040403938从上面表4和表5我们可以看到,与正常池子相比,这几个样品的工艺参数均有不同程度的异常,堆积温度偏低、堆积醅酸度较低及发酵挺火时间短,或许是这些因素使乙酸乙酯偏高,而乳酸乙酯偏低,由表2和表3的数据可以看到,这几个样品的乙酸乙酯含量高出平均值1393.89很多。芝麻香型白酒在科研过程中乳酸乙酯据高不下,显然这是一个解决乙乳比问题的突破口,但实际情况仍不容乐观。一是原因尚不清楚,也不能肯定这些情况可以准确再现,二是这几个样品都是一级酒和二级酒,而且二级酒居多。总结展望可以看到,我们现在的多变量统计分析使用是全成份的分析,其实,色谱数据中应该有一些不但不体现芝麻香的典型性,反而会影响正常的结果,下一步我们将对这方面进行进一步探索,尽量剔除对芝麻香典型性有负面影响的成份,使用更合理的数据,使进行多变量统计分析更好的服务于生产和科研。在芝麻香型白酒的科研和生产中,我们对多变量统计分析技术已有了初步的应用探索,虽然深度和广度还有限,但我们已看到了广阔的前景。相信,随着技术的发展我们的应用将更加深入,并不断推广到浓香、清香、酱香乃至整个白酒行业,让这种高效的工具为白酒行业的发展注入新的力量。