《中药指纹图谱模式识别研究进展.pdf》由会员分享,可在线阅读,更多相关《中药指纹图谱模式识别研究进展.pdf(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、4 4 6 国际药学研究杂志2 0 1 0 年1 2 月第3 7 卷第6 期JI n tP h a n nR e s,V 0 1 3 7,N o 6,D e c e m b e r,2 0 1 0中药指纹图谱模式识别研究进展刘万仓1 2,孙磊2,于孟琦2,乔善义2 摘要】现代分析技术的不断进步和中药更加系统化使得中药指纹图谱质量控制技术应运而生。中药指纹图谱中潜藏着大量反映中药及其复方内在化学物质信息的数据和变量对其挖掘和评价尤为关键。基于化学计量学和计算机科学的模式识别能够特征性的识别中药指纹图谱数据和变量,继而实现指纹图谱技术对中药及其复方的质量控制。本文就近年来中药指纹图谱模式识别研究进
2、展进行综述。关键词 指纹图谱:模式识别:中药:质量控制 中图分类号】R 2 8 4 1 文献标识码】A 文章编号1 6 7 4-0 4 4 0(2 0 1 0)0 6 0 4 4 6 0 5A d v a n c e si nt h ep a t t e r nr e c o g n i t i o nr e s e a r c ho nf i n g e r p r i n to fT r a d i t i o n a lC h i n e s eM e d i c i n eL I UW a n-c a n 9 1 S U NL e i 2,Y UM e n g q i 2,Q I A
3、OS h a n-y i 2(1 S c h o o lo fT r a d i t i o n a lC h i n e s eM a t e r i aM e d i c a,K e yL a b o r a t o r yo fS t r u c t u r e-b a s e dD r u gD e s i g n D i s c o v e r yD,M i n i s t r yo fE d u c a t i o n,S h e n y a n gP h a r m a c e u t i c a lU n i v e r s i t y,S h e n y a n g11 0
4、0 1 6,C h i n a;2 I n s t i t u t e 口,P h a r m a c o l o g ya n dT o x i c o l o g y,A c a d e m yo fM i l i t a r yM e S c a lS c i e n c e s,B e i f i n g1 0 0 8 5 0,C h i n a)A b s t r a c t W i t ht h ec o n t i n u a lp r o g r e s si nm o d e r na n a l y t i c a lt e c h n o l o g ya n di n-
5、d e p t hs y s t e m a t i cs t u d yo fT r a d i t i o n a lC h i n e s eM e d i c i n e(T C M),f i n g e r p r i n ti sb e i n gg r a d u a l l ya c c e p t e df o rq u a l i t yc o n t r 0 1 F i n g e r p r i n tc o n t a i n sp l e n t yo fi n c o g n i z a b l ea n dp o t e n td a t at h a tr e
6、 f l e c tt h ei n t r i n s i cc h e m i c a li n f o r m a t i o no fT C M,h o wt od i s c o v e ra n de x p l o i tt h e s ed a t ai sp a r t i c u l a r l yi m p o r t a n t T h ef i n g e r p r i n tp a t t e mr e c o g n i t i o no fT C Mt h a tb a s e do nc h e m o m e t r i ca n dc o m p u t
7、 e rs c i e n c ec a nr e c o g n i z et h e s ed a t aa n dv a r i a b l ec h a r a c t e r i s t i c s,w h i c hm a k e si tp o s s i b l et oc o n t r o lt h eq u a l i t yo fT C M T h i sp a p e rr e v i e w st h ea d v a n c e si nt h ep a t t e r nr e c o g n i t i o nr e s e a r c ho nf i n g
8、 e r p r i n to fT C Mi nr e c e n ty e a r s K e yw o r d s f i n g e r p r i n t;p a t t e r nr e c o g n i t i o n;T r a d i t i o n a lC h i n e s eM e d i c i n e;q u a l i t yc o n t r o l中药指纹图谱是中药材或中成药经适当处理后采用一定的分析手段得到能够标定该中药材或中成药特性的色谱、光谱或联用图谱。中药指纹图谱研究大概分为3 个部分:样品处理合理性研究、图谱测定技术研究、图谱识别和解读研究。指纹
9、图谱中潜藏着大量反映中药及其复方内在化学物质信息的数据和变量对其识别、挖掘和评价尤为关键。模式识别是基于化学测量数据从复杂的数据中最大限度的提取信息进一步揭示物质的隐含性质 2 。采用不同的模式识别,可有效获取中药指纹图谱蕴含的数据和变量。近年来。一些学者基于化学计量学和计算机科学对中药指纹图谱模式识别进行了研究特征性地识别这些数据和变量,继而实现中药指纹图谱对中药及其复方的质量控制。本文就近年来中药指纹图谱模式识别研究进展进行综述。1 主成分分析法主成分分析(p r i n c i p a lc o m p o n e n t sa n a l y s i s P C A)也称主分量分析,旨
10、在运用降维思想把多指标转化为少数几个综合指标。用综合指标解释多变量的方差协方差结构把给定的一组相关变量通过线性变换转成另一组不相关的变量这些基金项目:国家科技支撑计划课题(2 0 0 6 B A l 0 8 8 0 3 旬8),国家科技重大专项课题(2 0 0 睨X 0 9 3 0 l 0 2,2 0 0 9 Z X 0 9 1 0 3 3 6 1)作者简介:刘万仓,男,在读硕士研究生,研究方向:药物分析,T e l:0 1 0-6 6 9 3 0 6 3 4,E-m a i l:w n c g l i u 8 6 1 6 3 c o m作者单位:1 1 1 0 0 1 6 沈阳,沈阳药科大学
11、中药学院基于靶点的药物设计与研究教育部重点实验室(刘万仓):2 1 0 0 8 5 0 北京,军事医学科学院毒物药物研究所九室(刘万仓,孙磊,于孟琦,乔善义)通讯作者:乔善义,男,研究员,研究方向:药物分析,T e l:0 1 0-6 6 9 3 0 6 3 4,E-m a i l:c r b j 6 1 1 2 0 2 s i n a c 眦万方数据国际药学研究杂志2 0 1 0 年1 2 月第3 7 卷第6 期JI n tP h a r mB e s,V 0 1 3 7,N o 6,D e c e n l b e r 2 0 1 04 4 7 新的变量按照方差依次递减的顺序排列 洲。主成分
12、分析法被广泛用于光谱、色谱及其联用指纹图谱的模式识别e 圳W a r d 等使用P C A 法分析了拟南芥(A r a b i d o p s i st h a l i a n a)代谢产物的氢核磁共振指纹图谱。从而建立了一种以不同样品代谢产物为指标快速鉴定拟南芥的分析方法:v a nN e d e r k a s s e l 等基于化学计量学的色谱指纹图谱模式识别技术。以P C A 法为主成功的区别了不同来源的香草醛。1 1 主成分分析法的数学模型记原变量指标为茗。,菇:,它们的综合指标(新变量指标)为彳。,z:,7,m(m p),磊是与z。,z 2,z 剃都不相关的算l,戈2,的所有线性组
13、合中方差最大者,k 是在如上的载荷,线性组合方程式如式1 所示】o】。1 2 主成分分析法的计算步骤P C A 的计算主要经过以下3 个步骤:首先。将原始数据无量纲化处理消除量纲与数量级对分析结果的影响使标准化后的数据既达到降维的目的又包含了原始数据的全部信息:其次用标准化后的数据计算样本相关系数、特征值、特征向量和特征根:最后计算主成分贡献率以及各主成分载荷和综合得分 1 1-1 2 。纪荣芳 1 3 用均值化方法借助D P S 数据处理软件对原始数据进行降维。使其便于主成分分析;A i r i a n 等 1 4 1 应用基于P C A 分析法建立相关数学模型并解析液相色谱质子磁共振光谱(
14、L C I HN M R)在不同缩放比例下区分了3 种二氢萘的同分异构体。2 聚类分析法聚类分析(c l u s t e r i n ga n a l y s i s。C A)是依据实验数据本身具有的定性或定量特征根据变量域之间的相似性而逐步归群成类的方法能客观反映这些变量或区域之间的内在组合关系。S a h g a 等综合使用P C A 和C A 全面、准确地评价了一种真菌挥发油类物质的I R 指纹图谱:翟红林等 1 6 基于数字化成像识别技术辅助采用C A研究了不同产地黄连的H P L C D A D 指纹图谱,对其进行质量控制。2 1 系统聚类分析法系统聚类分析法f h i e r a
15、r c h i c a lc l u s t e r i n ga n a l y s i s H C A)是一种以测量距离或相似度作为聚类指标的用于分析成组排序样本的多元聚类方法被分析的每个样本相互独立又有一定的相似性并且预先确定了选择聚类的标准通常用一个树状模式图输出结果 1 7-1 8 。2 1 1 系统聚类分析的数学模型设有M 个样品,用两两之间的相似度d i i 统计得到距离矩阵,将距离阵中如最小的两类(即距离阵中最小比对应的行与列)合并成一个新类计算合并后的新类与其他各类的距离,得到一个新的距离阵:再从新距离阵中取出最小也,并将其所对应的两类合成一个新类这样每次减少一类直到将肘个样
16、品合并成一类为止。2 1 2 中药指纹图谱模式识别中的系统聚类分析法根据中药指纹图谱模式识别的特殊性和H C A 中类与类之间距离计算方法的不同将系统聚类法分为最短距离法、最长距离法、类平均法和离差平方和法 垮】。最短距离法将距离最近的样本归人一类即合并的前两个样本是它们之间有最小也和最大相似性,最长距离法与其相反;类平均法取两类中任两个样品也的平均值;离差平方和法分类所得同类样本的离差平方和较小类与类的离差平方和较大样本问的距离采用欧氏距离。常采用式2 计算欧式距离f 驯。喀:悟k 甄=li(2)其中,代表第i 个样品第k 个特征变量(J|=l,2,m)。x k 代表共有模式均值向量第k 个
17、特征变量(k=l,2,m)。2 2 模糊聚类分析法模糊聚类分析(f 也z yc l u s t e r i n ga n a l y s i s,F C A)是根据研究对象本身的属性来构造模糊矩阵。并在此基础上根据一定的隶属度来确定聚类关系从而客观、准确聚类f 2 J 驯。2 2 1 模糊聚类分析的分析过程F C A 的分析过程类似于P C A 首先建立原始数据矩阵经过平移、标准差变换和极差变换得到标准化数据矩阵。然后采用各种数学模型确定各元素之间的相似关系建立模糊相似矩阵最后利用传递闭包法或者直接聚类法获得模糊聚类结果【2 5 I 坍坍伽矿矿砂删删一妇“一mm崩2,巩勘赢纠纠珏万方数据4 4
18、 8 国际药学研究杂志2 0 1 0 年1 2 月第3 7 卷第6 期JI n tP h a r mR e s,V 0 1 3 7,N o 6,D e c e m b e r 2 0 1 02 2 2 中药指纹图谱模式识别中模糊矩阵的建立方法欧氏距离法:侧重于特征变量值的大小差异不考虑特征变量之间的变化模式的相似性与变量单位有关【矧;相关系数法:测度样品间在特征变量的变化模式上相似形状的相似性,又称为形状测度,鉴别样品真伪、提供定性信息的相似度,忽略了变量值大小之间的差异;夹角余弦法:把每个色谱指纹图谱看作一组对应保留时间下的峰面积的数值可将这组数值看作多维空间中的向量利用c o s O 值来
19、定量表征指纹图谱间的相似性c o s O 越接近l 则说明两个样品相似性越高。常用式3 计算c o s O 的值【矧。”z 矗c o s O=_=兰兰=(3)、乏 3 人工神经网络人工神经网络(a r t i f i c i a lB e u r a ln e t w o r k A N N)是一种基于现代神经科学以模仿动物神经网络行为特征试图通过模拟大脑神经网络处理、记忆信息的方式进行分布式并行信息处理的智能计算模型。A N N 由许多具有并行分布和结构的神经元组成。每个神经元能够单一输出,并有许多输出连接方法每种连接方法对应一个权系数,并且能够与其他神经元连接可以记忆、存储和处理信息【2
20、峨。3 1 人工神经网络的结构模型人工神经网络有向图(图1)可系统描述A N N 结构模型,它具有以下的特性:对于每个节点i,存在一个状态变量置;从节点i 至节点i,存在一个连接权系统数形i;对于每个节点i,存在一个阈值皖;对于每个节点i,定义一个变换函数五(置,耽,鲫,i 歹;对于最一般的情况,取Z(,形省广鲫形式 3 3 1。口图1A N N 有向图3 2中药指纹图谱人工神经网络模式识别过程中药指纹图谱的A N N 模式识别主要经过以下3 个过程:信号获取、特征提取和信号检测。首先运用分析技术获取全面反映中药内在质量的图谱或者数据的信号。然后对信号进行变换和压缩。常用的特征提取方法主要有傅
21、里叶变换、小波变换、特殊函数转换和专用的图像特征提取算法等,最后应用不同的网络模型完成识别。前向网络在中药指纹图谱模式识别中多被采用目前应用最多的是多层前馈网络。4 其他模式识别在中药指纹图谱模式识别中线性判别分析(1 i n e a r d i s e r i m i n a n t a n a l y s i s。L D A)和偏最d x-乘法(p a r t i a ll e a s ts q u a r e P L S)也常被采用 3 埘。L P A 是通过变换把相同样本更加聚集相异样本更加分散,以达到很好的分离效果。具体做法是将训练样本分别表示为内间散度矩阵和类内散度矩阵利用F i
22、s h e r 判别规则使内间散度矩阵与类内散度矩阵的比值最大求得的变换矩阵就是所需的变换。P L S 是一种数学优化技术通过最小化误差的平方和找到一组数据的最佳函数匹配用最简的方法求得一些绝对不可知的真值而令误差平方和最小 剪。由于中药指纹图谱数据变量数大P L S 所得矩阵的列数很大。而样本数相对较小对这类变量数多、样本数少的数据。常用拉格朗日求极值法导出的P L S 分析。5 结语基于化学计量学和计算机科学的中药指纹图谱模式识别为中药指纹图谱信息挖掘提供了有利的方法和模型,继之较准确、科学、高效地评价了中药指纹图谱。目前。P C A 和C A 运用最为广泛,它们均运用降维的数学思想将大批
23、量的指纹图谱原始数据和变量标准化基于所建立的数学模型剖析和挖掘这些指纹信息。A N N 技术是利用神经元结构通过输入层将中药指纹图谱变量和数据载人已编制的算法在隐层完成计算后从输出层导出结果。它综合了计算机科学、数学拓扑学和生物学等学科但增加了普及运用的难度和要求。近年来计算机科学和化学计量学发展迅速,为指纹图谱的评价开发了多种模式识别供选择。但是,并非所有的模式识别均能客观反映中万方数据国际药学研究杂志2 0 1 0 年1 2 月第3 7 卷第6 期JI n tP h a r mR e s,V 0 1 3 7,N o 6,D e c e m b e r,2 0 1 04 4 9 药及其复方的
24、内在质量特征加上中药指纹图谱由于操作环境、操作人员的不同导致数据单调性、规律性和一致性的误差在所难免,由此给模式识别的选择带来了困难。因此,在中药指纹图谱评价过程中,首先要充分了解样品的前处理、制备过程及其指纹图谱的建立过程,同时掌握各种模式识别的最优分析对象在此基础上慎重选择最适宜被分析样品指纹图谱的模式识别方法方可利用指纹图谱技术进行中药及其复方的质量控制和评价。反映中药指纹图谱指纹信息的数据和变量直接关系到不同模式识别的选择继而间接决定了指纹图谱的评价结果。但是很多情况下由于原始数据和变量的量纲不统一、规律性不明显不具有较好的可分析性使得必须对原始数据和变量进行人为性的前处理。科学地前处
25、理这些数据和变量对指纹图谱的合理评价非常重要。因此当选用了合适的模式识别进行指纹图谱评价时在不改变原始数据和变量本质特征及其内在规律的条件下,必须认真、准确地选择合适的标准化方法进行前处理。目前在中药指纹图谱模式识别评价体系中无论各种模式识别的选择还是不同标准化方法的应用均没有指导性的原则和标准可供借鉴致使多种模式识别和数据处理方法被尝试性地盲目采用。能否实现多种模式识别联合使用下所得分析结果既客观准确又有一定的统一性是值得深入研究的课题单一模式识别为主联合使用其他模式识别来说明特征问题是值得期待的。只有适度的应用并规范中药指纹图谱及评价技术才能满足中药及其复方质量控制的要求进而保证中药的安全
26、和有效。中药及其复方含有相当复杂的化学信息和生物学特征中药质量控制是中药现代化的瓶颈。随着指纹图谱技术在中药及其复方质量控制领域更加深入的应用基于化学计量学和计算机科学的模式识别将为中药指纹图谱的评价发挥不可替代的作用。【参考文献】【1】侯小平,何新新,苏薇薇中药指纹图谱质量控制技术 J 中药材,2 0 0 1,2 4(5):3 7 0-3 7 1 2 陈波,康海宁,韩超,等N M R 指纹图谱与模式识别方法在食物分析中的应用 J 波谱学杂志,2 0 0 6,2 3(3):3 9 7-4 0 7 3 M a i s u r M z eG G,L i w oA,S c h e r a g aH
27、A P r i n c i p a lc o m p o-n e n ta n a l y s i sf o rp r o t e i nf o l d i n gd y n a m i c s J JM o lB i o l,2 0 0 9,3 8 5(1):3 1 2-3 2 9 4 李新蕊主成分分析、因子分析、聚类分析的比较与应用 J】山东教育学院学报,2 0 0 7。(6):2 3 2 6 5 W a l dJ L,H a r r i sC。L e w i sJ,e t f A s s e s s m e n to f1 HN M Rs p e c t r o s c o p ya n
28、 dm u l t i v a r i a t ea n a l y s i sa sat e c h n i q u ef o rm e t a b e l i t ef i n g e r p r i n t i n go fA r a b i d o p s i s&d i a n a J P h y t-c h e m 矗t r y。2 0 0 3。6 2(6):9 4 9-9 5 7 6 K a r o u iR,D u f o u rE,S c h o o n h e y d tR,e ta 1 C h a r a c t e r i s a t i o no fs o f tc
29、h e e s eb yf r o n tf a c ef l u o r e s c e n c es p e c 乜 o s c o p yc o u p l e d稍t he b e m o m e n j cm o b:e f f e c!o ft h em a n t h f a c t t t r i n gp r o c e s sa n ds a m p l i n gz o n e J F o o dC h e m,2 0 0 7,1 0(2):6 3 2-6 4 2 7 V a lN e d e r k a s s e lA M,X uC J,L a n c e l i n
30、P,e t 以C h e m o m e t r l ct r e a t m e n to f v a n i 1 i nf i n g e r p r i n tc h r o m a t o g r a m s:e f f e c to fd i f f e r e n ts i g I l a la l i g n m e n t so np r i n c i p a lc o m p o n e n ta n a l y s i sp l o t s J J C h r o m a t o g r A,2 0 0 6 1 1 2 0(1 2):2 9 1 2 9 8 8 T o r
31、 r e sV a s-F r e i r eLG o m e sd aS i l v aM D R,C o s t aF r e i t s sA M C o m p r e h e n s i v et w o-d i m e n s i o n a lg a sc h r o m a t o g r a p h yf o rf i n g e r p r i n tp a t t e r nr e c o g n i t i o ni no l i v eo i l sp r o d u c e db yt w od i f f e r e n tt e c h n i q u e si
32、 nP o r t u g u e s eo l i v ev a r i e t i e sG d e g aV u l g,C o b r a n c o s a e C a r r a s q u e r d t aL I lA n o C h i m A c t a,2 0 0 9,6 3 3(2):2 6 3-2 7 0 9 W a t s o nN KV a n W i n g e r d e nM M,P i e r c eK M e ta LC l a s s i f i c a t i o n0 fh i g h s p e!e dg a sc h r o m a t o g
33、 r a p h y-m a 8 8s p e c t r o m e t r yd a t ab yp r i n c i p a lc o m p o n e n ta n a l y s i sc o u p l e dw i t hp i e c e w i s ea J 咖m e n t a n d f e a t u r e s e l e c t i o n J J C h r o m m o g r A 2 0 0 6,1 1 2 9(1):1 1 1 1 l8 1 0 张小确,高枝荣,夏云贵主成分分析方法及其在仪器分析中的应用 J 河北工业科技,2 0 0 7,2 4(5):
34、3 4 5 3 5 0 1 1 顾绍红,王永生,王光霞主成分分析模型在数据处理中的应用 J 测绘科学技术学报,2 0 0 7,2 4(5):3 8 7 3 9 0 1 2 何斌,蒙清主成分分析法的几个注记 J 云南师范大学学报(自然科学版),2 0 0 2,2 2(2):6-8 1 3 纪荣芳主成分分析法中数据处理方法的改进 J 山东科技大学学报(自然科学版),2 0 0 7 2 6(5):9 5 9 8 1 4 A i r i a uC Y,S h e nH L,B r e r e t o nR G P r i n c i p a lc o m p o n e n ta n a l y s
35、i si nl i q u i dc h r o m a t o g r a p h yp r o t o nn u c l e a rm a g n e t i cr e 8 0-I I 目l l c e:d i f f e r e n t i a t i o no ft h r e er n g i o-i s o m e r s J A n dC h i mA c t a,2 0 0 1,4 4 7(1 2):1 9 9 2 1 0 1 5 S a h g a lN,M a g a nN F u n g a lv o l a t i l ef i n g e r p r i n t s:
36、d i s c r i m i n a-t i o nb e t w e e nd e r m a t o p h y t es p e c i e sa n ds t r a i n sb ym e a n so fa ne l e c t r o n i cn o s eL J S e 珊A e t u a t D r sB,2 0 0 8,1 3 1(1):1 1 7 1 2 0-1 6 Z h a iH L H uF D,H u a n gX Y,e t 以T h ea p p l i c a t i o no fd i g i t a li m a g er e c o g n i
37、t i o nt ot h ea n a l y s i so ft w o-d i m e n s i o n a lf i n g e r p r i n t s J A n n 吼溉A c t a,2 0 1 0,6 5 7(2):1 3 1 1 3 5 1 7 K o n gW J,Z h a oY L,X i a oX H,e tn f S p e c u u m-e f f e c tr e l a t i o n s h i p sb e t w e e nu l t r ap e r f o r m a n c el i q u i dc h r o m a t o g r a
38、 p h yf i n g e r p r i n t sa n da n t i b a c t e r i a la c t i v i t i e so fR h i z o m ac o p t i d i s J A n o dC h i mA c t a,2 0 0 9,6 3 4(2):2 7 9 2 8 5 1 8 g a r m e lP I LL e es K a n e lS I Le ta 1 C h e m o m e t r i ca p p l i c a-t i o n i nc l a s s i f i c a t i o na n da s s e s s m e n to fm o n i t o r i n gl o c a t i o n s万方数据4 5 0 国际药学研究杂志2 0 1 0 年1 2 月第3 7 卷第6 期JI n tP h a r mR e s。V 0 1 3 7,N o 6,D e c e m b e r。2 0 1 0-_ _ _-_-_-新药研究与开发 _-_ 、_ -_ 罗氏与G e n e t e c h 公司整合后处于开发后期的重点产品列表(黄世杰摘)万方数据