《化学传感器阵列的计算机数据分析方法和发展趋势.pdf》由会员分享,可在线阅读,更多相关《化学传感器阵列的计算机数据分析方法和发展趋势.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、化学传感器阵列的计算机数据分析方法和发展趋势陈四海,周敬良!(湖南大学化学化工学院,化学!生物传感与计量学国家重点实验室,湖南长沙#$%&)摘要:化学传感器阵列是由一系列具有非特异性、低选择性、交叉敏感性和稳定性的化学传感器组成的分析仪器。作为利用化学传感器阵列进行准确可靠的定性和定量分析所不可或缺的条件,合适的模式识别和多元校正等数据处理方法已经成为化学传感器阵列的有机组成部分。该文着重介绍了常用的化学传感器阵列数据的计算机处理方法,并且展望了该领域的发展趋势。关键词:化学传感器阵列;计算机数据分析;模式识别;多元校正;趋势()*+,-./0,0 01023454 6(.78-)5702 4
2、-14(.0.03/-957-4:)-,8(/401/0/9017-4!#$%&(&)*+,-&$./&($.!0%1(1#2#3 4(5+6(1+63+7!#8+9:&+;#$;&$.($!#8&=(/?$.&$#6&$.),$($A$&B#6;&13)!($.;(CDEEFG)!&$(H;4,.07,:I=#8&=(/;#$;+6(66(3&;($($(/31&=(/&$;16,8#$1=+$;&;1&$.+7($(66(3+7=#8&=(/;#$;+6;J&1$+$K;L#=&7&=&13)/+J;#/#=1&B&13)=6+;K;#/#=1&B&13($;1(5&/&13M I;($&
3、$1#.6(/L(61+7(=#8&=(/;#$;+6(66(3);#/#=1&$.1#(LL6+L6&(1#L(11#6$6#=+.$&1&+$+6 9($8,/1&B(6&(1#=(/&56(1&+$8#1+;7+6(1($(/3;&;&;&$&;L#$;(5/#1+L#67+68N,(/&1(1&B#($N,($1&1(1&B#($(/3;&;L6#=&;#/3($6#/&(5/3 53(=#8&=(/;#$;+6(66(3M O#L6#;#$1(61&=/#7+=,;#;+$1#J/3,;#8#1+;7+6=+8L,1#6(1($(/3;&;+7=#8&=(/;#$;+6(66(3
4、;M P&$(/3=6&1&=(/16#$;&$1&;7/(6#L6#;#$1#(./4:=#8&=(/;#$;+6(66(3Q=+8L,1#6(1($(/3;&;Q L(11#6$6#=+.$&1&+$Q 8,/1&B(6&(1#=(/&56(1&+$Q 16#$;$引言回顾化学传感器的发展历史,如何提高单一化学传感器的选择性一直是研究的主流趋势之一。随着技术的进步和对于简易、价格低廉、广泛适用的分析方法的迫切需求,化学传感器阵列这一新的分析方法应运而生,并且在实际应用中获得了巨大的成功。化学传感器阵列,包括俗称电子鼻和电子舌的嗅觉和味觉传感器阵列,根据国际纯粹和应用化学会(RASI!)
5、有关文献的定义TD U GV,是组合一系列具有非特异性、低选择性、交互灵敏性(=6+;K;#/#=1&B&13)和稳定性的化学传感器的分析装置。尤其值得注意的是,该定义同时指出,化学传感器阵列应包括适当的模式识别和多元校正等多维数据处理方法。由此可见,运用合理的多元数据分析技术处理化学传感器阵列所得的测量数据,已经被作为化学传感器阵列这一分析测试技术的有机组成部分。虽然化学传感器阵列中单个传感器的选择性较低,但是在很多情况下,多个具有交互灵敏性的稳定的传感器获得的多维测量数据却能够提供足够和可靠的关于复杂混合体系的定性和定量信息,这正是利用计算机进行化学传感器阵列数据分析的基础。而由于单个传感
6、器选择性低,只有对高维检测信号进行处理和信息提取,才能获得相关的化学信息,处理高维数据的模式识别和多元校正等多元分析方法获得了最广泛的应用。所以,如何有效地从化学传感器阵列的多维测量数据中提取和有效利用相关的化学信息来进行准确可靠的定性和定量分析,实现复杂W+/M GF)X+M CY#=M G E E F化 学 传 感 器!?ZR!I4%?X%第 GF 卷第 C 期G E E F 年 DG 月混合体系样品的成分分析、质量控制、聚类和分类等分析目标,是化学传感器阵列研究的关键问题之一!#$%。该文重点介绍了常用的化学传感器阵列数据的计算机处理方法,并且指出了该研究领域近期的发展趋势。!模式识别方
7、法(#$%&%()*+$+),%$-)./)模式识别方法的两个重要方面是聚类和分类,前者为无监督学习方法,后者为有监督学习方法。通过对传感器阵列的高维测量数据进行分析,聚类分析通过某种相似性标准,对测量样品实现“自然分组”,可帮助人们初步了解测量样品的来源和差异等信息;分类算法则首先根据一批已知类别的样品进行学习,建立描述测量数据和类别之间关系的数学模型,进而运用此分类模型对未知类别的测量样品进行分类。!0!聚类方法((12/$%&+*,%$-)./)该文主要介绍&均值法,系统聚类法和利用主成分降维图示数据的目视法。聚类分析的原理和应用比较的文献可参阅!(#)%。&均值法对于一批待分析的样品,
8、首先确定类的数目(&)和&个初始聚类中心,按照距离聚类中心距离最小的原则把各样品分配到&类中的某一类,然后动态地改变类心和调整样品类别,最后使得各样品到其所属类别的中心的距离平方和为最小。&均值法方法简单可行,获得了较多的应用,其缺点为聚类结果受到样本输入顺序的影响,并且需要事先确定类数,具有一定的主观性。系统聚类法首先将*个输入样品各自作为一类,选择距离最小的两个样品合并为一个新类,然后计算各类之间的距离,将距离最近的两类合并,直到所有的样品被聚为两类为止。系统聚类法可将聚类过程表示成一个直观的树状图,不必事先划定类的数目。系统聚类法的另一个特点是某个样本一旦被归入某一类,就不会再分开。主成
9、分分析法把原始样品空间投影在互相正交的依次具有最大方差的少数几个主成分空间,如可取每个样品的前面+#个主成分的得分值描绘于坐标系中,在很多情况下可大致显示样品的分布信息。严格来说,+#个主成分未必能够准确充分地描述样品特性,并且与其它聚类方法相比,主成分分析的类别区分能力并不突出。但是主成分分析和降维显示样品的方法简单易行,可帮助人们对测量数据进行大致的了解,如聚类和发现奇异样品点等,所以仍然获得了广泛应用。值得一提的是,主成分回归(,&-),即选取合适的主成分代替原始测量变量和响应变量建立回归关系,也是一种常用多元校正方法。!0 3分类方法 4(1#/+5+(#$+),%$-)./)该节主要
10、介绍线性判别方法及其推广,.近邻法和簇类独立软模式法,其它可同时用于多元校正和分类的方法如,/0 和人工神经网络等则在下一节介绍。关于常用分类算法的比较可参阅文献!1#22%。23+3 2线性判别分析(/45678 94:;8457?A:4:B/9)及其推广C4:D68 的线性判别分析是一种成熟的统计分类和判别分析方法,在数据样品量大大高于变量数并且数据呈正态和均匀分布的情况下,能够对线性可分的样品进行准确的分类。线性判别分析法的核心在于找到一系列正交的一维投影子空间,使得原始数据在此子空间上的投影获得最佳分离,要求最大化的目标函数为类间离差平方和和类内离差平方和的比值。线性识别分析的解可归结
11、为求特征值问题。由线性判别分析得到的判别函数是线性的,当样品不满足线性可分的条件时,一种常用的方法为二次判别分析(E9),即在线性判别函数中加入二次项。另一种简单的解决非线性可分的策略是采用分段线性判别函数,用一系列的分段线性判别函数来逼近各种形状的超曲面,因此具有比较强的适应性和分类能力。23+3+.近邻法(.56786:=564FDGHI8:,J*K.近邻法基于一种非常直观的统计决策思想,即按照最近距离的原则对未知样品进行分类。首先计算未知样品与已知类别的训练样品的距离,然后考察未知样品的.个最近邻样品,这.个最近邻中属于哪一类的样品最多,就将未知样品分到哪一类。最简单的情况即当.L2 时
12、,把未知样品归于包含与之距离最近的样品的类中。.近邻法思想直观、易于实现,适用于样品先验信息较少的情况,能适应类空间分布较复杂的情况。$期陈四海等:化学传感器阵列的计算机数据分析方法和发展趋势+!#$簇类独立软模式法(%&()*+,-,*+,*(.&+,/)*0&1/2%2*2/&0),%,34567)簇类独立软模式法(34567)是非常流行的一种描述数据类结构的分类方法。该方法对每一个类的样品进行主成分分析(867),用足够的主成分数描述(重建)原始数据。每一个样品类的主成分数目可以不相同,通常可用交互验证法确定。主成分模型未能解释的数据变化称为方差残差。直观地看,一个新的未知样品如果能够被
13、某一类的主成分模型很好的描述(具有小的方差残差),则该样品很可能就属于该类。具体的判定方法是对于每一个未知类别的新样品,用不同类别的主成分模型来描述该样品,如果该样品在某一主成分模型下的残差方差与该类样品的平均残差方差相比(通过构造 9:统计量),属于可接受的范围,则该样品可归为此类别。改进的 34567方法不仅考虑了类模型对新样品的解释能力,同时考虑该样品在该类中的分布,如果新样品能够被一类模型很好地解释,但是却明显远离该类别中的训练样品,则新样品将被视为奇异样品。奇异样品的确定可通过用统计方法给出每一主成分方向上的可接受区间来实现。34567 的优点在于,!)样品只能以很高的概率被划分属于
14、某一类,方差残差大的样品可能归于奇异样品或者训练集不充分;#)样品可能被同时判定属于多类,适用于类别重叠的情况。!多元校正方法#$%&()*)&+,)%-*).&/0#+&1/234化学传感器阵列中的多元校正的目的在于建立测量数据和目标分析值(如组分浓度或其它量化的样品性质)之间的准确稳健的数学模型,可利用此模型和阵列测量数据对新样品的性质进行预测,以代替传统的费时费力或者昂贵的分析手段。!5 6偏最小二乘(7)*&)%8+)3&39$)*+3,:8;4偏最小二乘;!#()12/%)0*2/,?73),并且每一个 83 隐变量代表了当前数据的最大信噪比方向。偏最小二乘法从预测变量中逐个提取正交
15、的隐变量,使得隐变量与响应变量的协方差最大。在提取了足够的隐变量后,可用隐变量与响应变量建立多元回归模型。响应变量为向量时,模型称为 83!A 响应变量为矩阵时,模型为 83#。偏最小二乘法能够克服共线性问题和小样品多变量问题,对于线性和不太严重的偏离线性的情况,都有较好预测性能,所以获得了广泛应用。分类问题也可视为特殊的回归问题,不同之处在于在分类问题中,响应变量为类别属性,在回归问题中响应变量则为连续变量。83 用于判别分析的第一种策略是使用单一回归模型对所有样品进行分类。对于一个 B:类问题,对于每一个样品,可设计一个长度为 B 的向量!表征其类别,如样品属于第(C!,#,B)类,则!的
16、第 个元素为!,其余元素为 D 然后把!组成的类别矩阵和预测变量进行 83#回归。新样品可归为具有最大类别预测值的类中。第二种选择是对每两类样品建立一个回归分类模型,此时可用标量D:!编码两类类别。新样品可按预测类别值更接近于!或 D 进行分类。对于严重共线性的数据,可用 83,867 或其它处理共线性数据的方法提取相关成分(隐变量),然后再用 E7 或 FE7 来进行判别分析,经验表明,该方法性能优于单纯的 83#回归分类。!5!人工神经网络()*&?AA)人工神经网络;!$,G,+&GI2G+J59K*,(=I&GB%)采用非线性变换单元,转移函数为%)0.&)+函数,因采用反向传播学习算
17、法,所以通常也称为反向传播(L21B-G&-202()&*)网络。自组织图(%,/:&G02*)M)*0.2-)神经网络能将任意维数的输入模式非线性地映射到一维或者二维的离散图形上,并且保持其拓朴结构不变。自组织神经#N化学传感器#O 卷网络通过对输入模式的反复学习,能够反映出输入模式的概率分布,可用于样品的聚类、分类。概率神经网络(!#$%$&()&*+,-%+,).#/()基于优化的高斯核函数的核宽度,定义了训练集的每一个数据类的概率密度函数。当核函数的核宽度为0 时,该方法给出最近邻法相同的结果。为了确定新样品的类别,该方法计算新样品属于每一类的概率,并选择最大概率的类。人工神经网络的优
18、点是适应性强,尤其能处理非线性问题,缺点是可解释性差,易于过拟合。使用该方法尤其要注意模型的充分验证,防止过拟合。!进展和展望化学传感器阵列的数据分析是一个不断发展的研究领域,该文主要介绍了常用和基本的模式识别和多元校正算法,其它最近提出或者获得较多应用的方法,如支持向量机、模糊模式识别、径向基函数等也应受到重视,综述可见于参考文献123。另外必须指出,化学传感器阵列的数据分析绝不限于模式识别和多元校正,传感器的选择和优化、变量选择、数据前处理都是不可忽视的步骤,对于数据分析的质量和结果至关重要。合理选择和运用数据分析方法必须要针对化学传感器阵列测量数据自身的特点。由于测量方法和测量体系的复杂
19、性和多样性,例如测量数据的线性和非线性,样品模式空间的局部差异等,很难找到一种能够适用于各种测量数据和分析目标并且可靠准确的数据分析方法。另外,由于大多数研究都着重报道了特定算法应用于特定的阵列和实验数据的结果,有必要基于同一数据集,系统地比较各种数据处理方法,进一步改善已有算法的性能。借鉴其它研究领域的成果,经过改进或调整,把新的数据处理方法转移到该研究领域,也是化学传感器阵列数据分析的发展趋势之一145 6 473。最后,将着重指出,多维分析1483(9-)&:.%;%+%;(&()和群学习方法14 9,)?#A(B可能成为该研究领域的重要方向。当用传感器阵列测量样品体系随时间变化的特征时
20、,对于每一个样品可获得一个立方阵数据,也可重新排列,则一个矩阵数据对应于一个测量样品。用多维分析方法处理此类数据可获得“二阶优势”,能够在未知干扰组分的情况下多目标组分进行定量分析。多维分析也可用于模式识别。群学习方法的基本思想是组合一系列较“弱”的模式识别或多元校正模型,以获得在统计学上更加稳健和准确的模型。由于单个化学传感器的低选择性和阵列数据的信息冗余,群学习方法能够充分利用获得的测量信息和改善模型的稳定性。虽然群学习方法应用于传感器阵列分析的报道较少,仍然可以期待该方法对现有传统方法的改善和提升。参考文献1 4 3 C%(#D E-F G,&+HI J#+:(,*)&D,*?,9&*%
21、(,+(#(&+%+%;)&*%*?,9&();K L#9“,*)#+&*+#(,”)#“,*)#+&*)#+-,”1M3I N,(,+&-(O M#-+%#L H+%;)&*%P?,9&();F4QQ2F R84=RBK S77 6 S80I1 S 3 C%(#D E-F G,&+HF T-A+&)(/%;%HF,)%I J#+(#,*&L&*U,+(#%;(=V,*)#+&*)#+-,B L#*?,9&*%+%;(&(#L&W-&A(1M3I X-,%+A H!&,A P?,9&();F S007F?,:#A,*?,9&*%(,+(&+1M3I P?,9&*%T,D&,.(F S002F
22、402=SBK78R 6 84RI1 5 3 T*/NF%(%+JF _,&9%I a,*)#+&*J#(,K P-,+)()%)-(%+A L-)-,),+A(1M3I P?,9&*%T,D&,.(F S002F402=SBK 07 6%9(L#*%(&L&*%)+%+A W-%+)&)%)+#L-+),%),A$,D,%,(%9!,(1M3 I U,+(#(%+AH*)-%)#(,S000,4:45 6 7RI1(T I U#!)&D,$,?%DL9#+#%;,:!#),*),A#A+%+#!%)&*,L&9(K&9!&*%)+(L#*?,9&*%D%!#(,+(&+1M3
23、I H+%;)&*%P?,9&();F S00RF 7K 4 282 6 4 2QI1 2 3 U*#)U cF M%9,(bF H&eI b%)%+%;(&(L#,*)#+&*+#(,(;(),9(1M3 I c&*#*?&9 H*)%F S00F 478K 42R 6S0+&)+%#&)?9(1M3I H+%;)&*%P?&9&*%H*)%F 4QQQF R25K R076 R4 cF _&+W-&()NF,)%Ia,*)#+&*)#+-,(L#,+D+9,+)%9#+&)#&+$%(,A#+(,+(#%;(%+A!%),+,*#+&)+K%,D&,.1M3 I5 期陈四海等:
24、化学传感器阵列的计算机数据分析方法和发展趋势S7!#$%&(#)*+(#!(,-./,0-12-/3 4-156/7)89:;?$:A9;=5 B*:#$%99 8C 9:98#%D#A&*E#8F9 G#&:(8H&8&:(*IF:9 6J7 5K:989#D!(&F#&89 L,-.1,/02 MN 4 OP56/-7=8$D K,J89:C998 Q5 QF$&E#&:(#$#&8 8C#$%&R(#$D#,S(%($8G:D#8C!#$%&(#$)*:+9&%6Q75 T:AU8;2=$:%,-.5/4-356/P7 V#%;K5 T:F#$:&A8;9:#(8+G:*:9
25、E:C8FD#&8W-D SD&8X 6Q7 5 T:A J:9:%2:&(:V#$,/OOO5/.O 4 PO156/07 K;8E B,L8 Y5!:A#GG8#(*C8+8D:$H 9:98#9:D D#J7 5 K:989#D!(&F#&89 L,-.N,/.123/O 4 3-O56/N7 ZF&:Z#$E:!,ZF&:9F#Y5(:#9H&*:9:G#$&%8C(*:+89:98#%G#&:9 A&*V:R#_#&V:#$:#H 6J75 K:989#D!(&F#&89L,-.1,/12-O 4 PN56/17 L8 Y5 Y:E:A 8 QF$&A#%!#$%99 )*:+
26、9&%-.-.N 6J7 5)&(#$Y:E:A9 !#$%&(#$)*:+R9&%,-.1,P12-3O 4-OP56/37 L:+:8 K,)#:9%J5 S9:+$:a:#H C8(*:+(#$9:98#%96J75 T:F#$8(:99H a:&:9,-.0,/OW/X2-N 4 PN5#$化学传感器 编辑部声明凡向本刊所投稿件,视为作者将该论文的复制权、发行权、信息网络传播权、翻译权、汇编权等权利转让给本刊。本刊已加入中国学术期刊网络出版总库、万方数据数字化期刊群,被中国期刊全文数据库、中国核心期刊(遴选)数据库收录。凡被本刊录用的稿件将同时通过因特网进行网络出版或提供信息服务。稿件一经刊用,付给作者的稿酬包括印刷版、光盘版和网络版等各种使用方式著作权使用费。-1化学传感器-M 卷