《基于多参数距离融合聚类原理建立中药标准指纹图谱的研究.pdf》由会员分享,可在线阅读,更多相关《基于多参数距离融合聚类原理建立中药标准指纹图谱的研究.pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、高技术通讯2 0 1 4 年第2 4 卷第1 期:9 9 1 0 3d o i:1 0 3 7 7 2 j i s s n 1 0 0 2-0 4 7 0 2 0 1 4 0 1 0 1 5基于多参数距离融合聚类原理建立中药标准指纹图谱的研究崔建新一+崔建凤”+洪文学+高海波一“(燕山大学电气工程学院秦皇岛0 6 6 0 0 4)(”河北省测试计量技术及仪器重点实验室秦皇岛0 6 6 0 0 4)(”+秦皇岛职业技术学院旅游系秦皇岛0 6 6 0 0 4)(”中国中医科学院针灸研究所北京1 0 0 7 0 0)摘要分析了中药标准指纹图谱的传统构建方法,针对传统方法建立的中药标准指纹图谱在中药质
2、量鉴别及评价上的局限性,进行了标准指纹图谱建立方法研究,提出了基于多参数距离融合聚类原理建立中药标准指纹图谱的方法。该方法通过计算中药多维多患图谱数据的各维特征聚类规则并融合在一起获得中药标准指纹图谱,实现了多种图谱信息的融合。采用黄芩数据进行了实验,实验结果显示依据聚类原理构建的中药标准指纹图谱更利于中药的分类。该方法是一种可行的中药标准指纹图谱构建方法。关键词中药指纹图谱,聚类分析,信息融合,可视化0引言中药现代化是目前国内外医药界研究的一大热点J。中药指纹图谱技术是实现中药现代化的有力工具【2J。任何药物,只有达到一定质量标准才能产生一定疗效。药物质量的优劣直接关系到疾病的治疗及患者的健
3、康和生命安全【3 引。而中药由于其化学成分的多样性、复杂性以及有效成分的不均衡性,使得中药分类和质量研究的任务极其艰巨。中药指纹图谱可以用来鉴别中药的真伪、控制中药质量及评价其安全性和有效性。中药指纹图谱的解析与处理通常是指,借助于计算机,分析其化学成分测定值及相关的药理作用,快速、准确地寻找出内在规律,作为中药材质量控制的指标【6 7 。中药指纹图谱的标准图谱,又称为共有模式,是指能够表征某种中药产品化学组成特征的一个图谱。在中药的鉴别与评价以及中药指纹图谱数据处理中,标准指纹图谱可以作为参照图谱。将待测试的指纹图谱与标准指纹图谱进行对比匹配,可以得到测试样本的质量评价结果。对于中药材,可以
4、把经过鉴定的药材样本作为对照品,构建该品种药材的标准指纹图谱。也可以将道地产区的样品或严格按G A P(中药材生产质量管理规范认证管理办法)要求生产的药材样品作为标准品进行对照。中药指纹图谱标准图谱的建立,对于中药指纹图谱数据处理准确度的提高具有重要的指导作用,有利于形成对中药材或中成药的客观准确的鉴定或评价。而中药的鉴别与评价最终都归结为分类问题,所以本文基于分类目的,提出以多参数距离融合聚类规则作为评价与鉴别标准,也就是标准指纹图谱不再是传统意义上的有形的特征指纹图谱或有实际意义的特征库,而是一种以分类为目的的聚类规则。由于以分类为目的,以分类结果准确率高的聚类规则来定义标准指纹图谱,所以
5、用这种方法构建的标准指纹图谱更利于指纹图谱的分类,同时在基因研究方面更有广泛应用。1。1中药标准指纹图谱传统构建方法常用标准指纹图谱构建方法主要有三种:(1)典型指纹图谱选择法,即通过对一组或一中国博士后科学基金(2 0 1 2 M 5 1 0 7 2 2),中国中医科学研究院项目(Z Z l 2 0 0 1),燕山大学博士基金(1 1 6 9 2)和秦皇岛市科学技术研究与发展计划(2 0 1 0 0 1 A l l 9)资助项目。女,1 9 7 7 年生。博士;研究方向:模式识别,中药指纹图谱;E m a i l:y d c u i j i a n x i n y a h o o e o m
6、 c n通讯作者,E m a i l:h h s h b y s u e d u。c n(收稿日期:2 0 1 3-0 5-2 7)一9 9 万方数据高技术通讯2 0 1 4 年1 月第2 4 卷第1 期系列样品的指纹图谱进行研究,并结合待测样品的性状以及其它理化鉴别方法,从样品中选择一个具有代表性或者是有典型意义的指纹图谱来作为对照指纹图谱,构建出该品种的标准指纹图谱。当各个样品的指纹图谱特征相近时,这种方法值得推荐。但是由于选择的典型指纹图谱只包含单个样品的特征,所以选择过程难以避免随意性。而且,在各个样品的指纹特征差异比较大的情况下,典型指纹图谱的选择比较困难。(2)共有模式生成法。共有
7、模式指的是每个指纹图谱都包含的广义谱峰,它可能是一个真正的谱峰,也可能是一段区域,即包含有几个谱峰。通过对一批指纹图谱进行研究,模拟出用于对照的指纹图谱即标准指纹图谱或生成对照指纹图谱数据。这种方法的优点是综合了一批样品的指纹图谱信息,虽然信息较丰富,但仍然会受样品批次的影响,很难保证结果的准确性。(3)特征指纹图谱库汇集法。这种方法采用数字化指纹图谱的原理和方法,对1 0 个批次以上的样品进行指纹图谱处理,首先生成特征峰的指纹图谱集,然后再根据基准样品、共有峰、n 强峰的数目以及n 强峰出现频次要求和共有率要求等的设定,来对数据进行处理,这样就得到了1 0 个批次以上样品的指纹图谱库,也就是
8、标准指纹图谱。这种方法的优点是综合了多个批次样品的指纹图谱信息,信息丰富。但是,由于该方法是对图谱表层信息的综合,并没有深入挖掘利于鉴别和评价的信息,另外,各种要求的设定也没有一个标准,仍然由人的主观因素决定,所以该方法最终同样保证不了相似度计算的准确性。2基于多参数距离融合聚类原理的中药标准指纹图谱的构建2 1 标准指纹图谱的建立原理标准指纹图谱的建立以聚类分析为基础,为了得到最优解,在聚类分析之前,首先考察各个样本的多维信息数据之间的相关性。一般情况下,如果两个样本的数据相关性比较弱,则说明这两维数据比单纯任一维数据所包含的信息会更加丰富,因而更能比较全面地表征样本的特异性。如果相关性较强
9、,则可根据实际情况进行数据的约简即降维处理。然后对样本的各个特征分别采用不同的相似度方法计算样本的相似度,如各种距离及相关系数计算方一1 0 0 一法,并依据相似度对样本的多维特征进行聚类。最后,训练分类器,并选择鉴别效果较好的距离计算方法,得到多个距离分类规则,将多维距离分类规则融合在一起就组成了标准指纹图谱。图1 为标准指纹图谱生成示意图。A,曰,为多维多息图谱数据表征的样本。A D A 酊;B D B“;分别表示样本的保留时间、相对保留时间、峰面积和归一化峰面积,m 表示样本的变量个数。t,S 分别表示保留时间和峰面积的聚类规则,它们是各个矩阵的相应行聚类的规则,如A。与B。的聚类,然后
10、得到矩阵日为总的聚类规则,即为我们的标准指纹图谱。图1 标准指纹图谱生成示意图HSl=Hl;J2 2 标准指纹图谱的建立步骤中药标准指纹图谱建立的基本步骤如下:(1)特征选择。首先对指纹图谱数据进行特征选择,由于选择的特征将作为聚类判别的依据,所以这些特征应该最大限度地区分不同的类别样本,同时又能够容易确定相同的类别样本。这与特征空间中样本特征的显著性程度是有很大关系的。(2)测试指标的确定。由于聚类过程所依据的相似度的判别是需要有度量的,所以应确定相应的度量标准,即选取合适的距离或相关系数的范围,这是一个必要的步骤。(3)准则函数的确定。准则函数或目标函数的选择将会对聚类结果有很大的影响,不
11、同的数据集可能蕴涵不同的类别形式,相应地就会有不同的准则函数。(4)聚类算法的确定。基于“距离”的聚类算法有很多种,由于不同数据集有不同的特征形式,且同一数据集的不同特征也可能存在很大差别,所以应针对不同数据集甚至是数据集中的不同特征确定有效的算法。(5)结果的验证。验证聚类结果的正确性以及聚类方法的有效性。这是非常关键的一步。222244;马B;44 岛B;。L。L万方数据崔建新等:基于多参数距离融合聚类原理建立中药标准指纹图谱的研究3实验结果及分析3 1 实验数据本实验采用文献 1 1 中的表3 6 和表3 9所示的黄芩数据,包括不同产地的不同种类黄芩样品2 3 个。黄芩是一种常用的中药材
12、,可清热燥湿,泻火清毒。但除了中国药典中记载的正品黄芩(S c u t e l l a r i aB a i c a l e n s i sC,e o r 9 1)外,市场上有其它的伪品黄芩也在不同程度地使用,包括甘肃黄芩、滇黄芩、粘毛黄芩及丽江黄芩。甘肃黄芩、滇黄芩、粘毛黄芩及丽江黄芩与正品黄芩既有相似又有不同,实验的目的是鉴别黄芩的质量及区分黄芩的种类。本实验数据由气相色谱(G C)、薄层色谱(T L C)、纸色谱(P C)、紫外光谱(u V)4 项技术联用共得到8 个特征值。3 2 实验过程本实验采用层次聚类法,其基本原理是开始每个样本自成一类,然后依次将最相似的两类合并,并计算新类与其
13、他类之间的距离或其它相似性测度,直到所有的样本都归为一类,这一过程可以用谱系聚类图来描述。该方法的聚类原则是由样本间的距离以及类间距离的定义决定的,所以不同的距离定义方法将产生不同的层次聚类计算方法。本文中类与类之间的距离采用重心法进行计算。距离采用欧式距离,计算每个特征的各个样本7 2 346 2 513(a)特征4 聚类图间距离值,可以得到2 3X2 3 的距离矩阵,8 个特征得到8 个距离矩阵。由于矩阵是对称矩阵,所以只需写出下三角矩阵。由于篇幅关系,这里就不给出。每个特征随机选取矩阵表中的2 0 个样本进行训练,并且保证在训练样本中包含所有黄芩种类,计算对已知类别的各个样本定义边界距离
14、值,对于8 个特征值可得到8 个距离范围即聚类规则,将其融合在一起即最终的标准指纹图谱。3 3 实验结果及分析讨论由于特征7 和特征8 的距离矩阵数据值比较特殊,首先进行聚类分析,且无须绘出聚类图。对于特征值7 取阈值d 7=0 4 1,可分为两大类G 7。4 1 0 和G 7 2=1 3,1 1 2 3 。因此,特征值7 可将正品黄芩与除甘肃外的其它黄芩区别开来。对于特征值8 取阈值d 8=1,可分为两大类G 引=4,5,9,1 0 和G 跎=1 3,6 8,1 1 2 3 。特征值8 显然对黄芩类别的区分能力不如特征值7,且比较混乱。但说明了甘肃黄芩和粘毛黄芩与正品黄芩的相似性。直观上,特
15、征4 和特征5 在距离矩阵上有一定的相似性。所以,接下来分析特征4 和特征5。首先,绘出聚类图如图2 所示。对于特征4 取阈值出=0 3 4,可分为G 4,=7 2 3 、G 4 2=4,6 和G 4 3=1 3,5 。可见,特征值4 可将甘肃黄芩和滇黄芩与正品黄芩区分开来。所以,采用特征值7 和4 共同作用可鉴别甘肃黄芩、滇黄芩与正品黄芩。同时说明了粘毛黄芩和丽江黄芩与正品黄芩的相似性。2 31 1 2 318 7 4 951 06(b)特征5 聚类图图2 特征4 和特征5 聚类图对于特征5 取阈值d 5=0 8 6,可分为G 5=13,7,8,1 1 2 3 和G 5 2=4 6,9,1
16、0 。这时,G 5:=4 6,9,1 0 中为滇黄芩和丽江黄芩,从而利用特征7、4 和5 可鉴别丽江黄芩。同时,说明了甘肃黄芩、粘毛黄芩与正品黄芩的相似性,以及滇黄芩与丽江黄芩的相似性。继续分析特征2 和特征3。首先绘出特征2 聚类图如图3 所示。对于特征2,取阈值d 2=0 4 5时,可分为G 2 l=1 8 、G 2 2=1 1 1 5,1 8,1 9,2 3 、G 2 3=1 0,1 6,1 7,2 0 2 2 和G 2 4=9 。所以,特征2 与特征7、4 可用于鉴别粘毛黄芩。同时也说明了丽江黄芩与正品黄芩的相似性。一1 0 1 万方数据高技术通讯2 0 1 4 年1 月第2 4 卷第
17、1 期图3 特征2 聚类图绘出特征3 聚类图如图4 所示。当特征3 取阈值d 3=1,可分为G 3。=4 6,9 1 3 和G 2=1 3,7,8,1 4 2 3 。所以,特征3、7 可鉴别粘毛黄芩,特征3、2 可鉴别丽江黄芩,同时也说明了甘肃黄芩、粘毛黄芩与正品黄芩的相似性。4,-69 1 3l231 8 2 l71 4 1 52 3 1 62 21 781 92 0图4 特征3 聚类图接着分析特征1 和特征6,首先绘出特征值1聚类图如图5 所示。对于特征值1 取阈值d,=0 3 1,可分为G。=6,1 1,1 8,1 9,2 3 、G 1 2=l,2,5,9,1 0,1 2,1 3,2 0
18、 2 2 、G 1 3=4 和G 1 4=3,7,8,1 4 1 7 。虽然总体类别比较散乱,但丽江黄芩与粘毛黄芩聚类效果好,可与前面特征相结合进行鉴别。特征值6 的聚类图如图6 所示。对于特征值6取阈值d 6=0 1 3,可分为G 6。=4,7 、G 6 2=5,6,9 、G 6 3=1 0 和G“=1 3,8,1 1 2 3 。特征6 的类别分布更加混乱,但说明了甘肃黄芩与正品黄芩的相似性,同时也可结合前面特征鉴别甘肃黄芩。一1 0 2 0 3 1图5 特征1 聚类图图6 特征6 聚类图由前面的分析可以得到黄芩的标准指纹图谱,即为H=d 7,以,d 5,d 2,d 3,d 8,d 1,d
19、6=0 4 1,0 3 4,0 8 6,0 4 5,1,1,0 3 1,0 1 3(1)式中特征值的顺序是按特征的分类能力由高到低排列的。同时,从以上分析可知,甘肃黄芩和粘毛黄芩与正品黄芩的相似性更大,而滇黄芩和丽江黄芩与正品黄芩的相似性较小。这与文献 1 1 中的结论一致。依据上述分析,在保证训练样本中包含所有黄芩种类的前提下,随机选取矩阵表中的2 0 个样本进行训练,其余作为测试,分类结果以测试集的1 0 次交叉检验误差率作为评价指标。选择的分类器分别是线性分类器、k 近邻分类器以及以标准概率密度为基准的贝叶斯分类器。实验结果误差率分别为5 1 3、3 8 7 和1 9 8。由此可见,依据
20、聚类规则建立标准指纹图谱的方法不失为一种可行的好方法。此外,本实验采用的数据是气相色谱(G C)、薄万方数据崔建新等:基于多参数距离融合聚类原理建立中药标准指纹图谱的研究层色谱(T L C)、纸色谱(P C)、紫外光谱(u V)四种技术联用测得的中药指纹图谱数据,由于中药的复杂性,目前各种单一的测定方法往往很难得到比较完善的指纹图谱,因而采用多种技术联用来进行测量可获得较全面的中药指纹图谱。而且,依据聚类规则构建标准指纹图谱,实现了多种图谱信息的融合。4结论中药现代化是中药发展的必由之路。中药指纹图谱技术借助于现代分析手段,以标准指纹图谱作为参照图谱,控制中药质量,鉴别中药真伪,评价其安全性和
21、有效性。但标准指纹图谱的传统建立方法存在诸多缺点,影响了结果的准确性。本文提出的标准指纹图谱建立方法以多参数距离融合聚类规则作为评价与鉴别标准,是一种聚类规则。由于它以分类为目的,以分类结果准确率高的聚类规则来定义标准指纹图谱,所以它所构建的标准指纹图谱一定更利于指纹图谱的分类。实验证明,该方法是个有意义的研究方向。同时,指纹图谱技术可广泛应用于基因研究领域,该方法的研究成果应用于这一领域的研究将会深入进行。参考文献 1 邹纯才,鄢海燕中药指纹图谱及其数字化安徽:科学技术出版社,2 0 0 8 2 罗国安,梁琼麟,王义明中药指纹图谱一质量评价、质量控制与新药开发北京:化学工业出版社,2 0 0
22、 9 3 高燕萍,周月芳,胡春湘易混品种的药材鉴别比较中华现代中医药杂志,2 0 0 5,3(1 0):9 3 2-9 3 3 4 张铁军,姜顺善决明子的原植物研究中草药1 9 9 3,2 4(1):4 0 4 1 5 马利飞,唐伯灵,李红等决明子及其伪品刺田菁种子的鉴别中药材,1 9 9 3,1 6(1 0):2 0-2 1 6 罗国安,王义明,曹进多维多息特征谱及其应用中成药,2 0 0 0,2 2(6):3 9 5-3 9 7 7 谢培山中药质量控制模式的发展趋势中药新药与临床药理,2 0 0 l,1 2(3):1 8 8-1 9 1 8 张志永,张劲松,巩学千等抗S M V 栽培大豆种
23、质资源的S C A R 标记指纹图谱分析高技术通讯,1 9 9 8,1 0(1):4 9-5 3 9 白史且,高荣,沈翼等假俭草遗传多样性的A F L P 指纹分析高技术通讯,2 0 0 2,1 0:4 5-4 9 1 0 张勇,邓科君,张韬等水稻基因组M S A P 指纹图谱构建及D N A 甲基化修饰位点分离与鉴定高技术通讯,2 0 0 9,1 9(9):8 3-9 9 0 1 1 张福良聚类分析与中药质量研究北京:人民卫生出版社,1 9 9 4R e s e a r c ho nc o n s t r u c t i o no fs t a n d a r dT C Mf m g e r
24、 p r i n t sb a s e do nm u l t i p a r a m e t e rd i s t a n c ec l u s t e r i n gt h e o r i e sC u iJ i a n x i n,C u iJ i a n f e n g,H a n gW e n x u e,G a oH a i b o+(S c h o o lo fE l e c t r i ca n dE l e c t r o n i cE n g i n e e r i n g,Y a n s h a nU n i v e r s i t y,Q i n h u a n g d
25、 a o0 6 6 0 0 4)(“M e a s u r e m e n tT e c h n o l o g ya n dI n s t r u m e n t a t i o nK e yL a bo fH e b e iP r o v i n c e,Q i n h u a n g d a o0 6 6 0 0 4)(”T h eD e p a r t m e n to fT o u r i s m,Q i n h u a n g d a oI n s t i t u t eo fT e c h n o l o g y,Q i n h u a n g d a o0 6 6 0 0 4)
26、(I n s t i t u t eo fA c u p u n c t u r ea n dM o x i b u s t i o nC h i n aA c a d i m yo fC h i n e s eM e d i c a lS c i e n c e s,B e i j i n g1 0 0 7 0 0)A b s t r a c tT h et r a d i t i o n a lm e t h o d sf o rb u i l d i n gs t a n d a r dT C M(t r a d i t i o n a lC h i n e s em e d i c i
27、 n e)f i n g e r p r i n t sw e r ea n a l y z e d,a n da i m i n ga tt h el i m i t a t i o n so ft h eT C Mf i n g e r p r i n t sc o n s t r u c t e db yt r a d i t i o n a lm e t h o d si nT C M Sq u a l i t yi d e n t i f i c a t i o na n de v a l u a t i o n,an o v e lm e t h o df o rc o n s t
28、 r u c t i o no fs t a n d a r dT C Mf i n g e r p r i n t sb a s e do nm u l t i p a r a m e t e rd i s t a n c ec h s t i n gt h e o r i e sW a sa d v a n c e d T h en e wm e t h o db u i l d ss t a n d a r dT C Mf i n g e r p r i n t sb yc o m p u t i n ge a c hf e a t u r ec l u s t e r i n gr u
29、 l eo fm u l t i-d i m e n s i o n a lp r i n td a t ao fT C Ma n di n t e g r a t i n gt h e m,t or e a l i z et h ef u s i o no fm u l t i p r i n ti n f o r m a-t i o n T h et o t a lc u l s t e r i n gr u l ei st h es t a n d a r dT C Mf i n g e r p r i n t T h ee x p e r i m e n t sw e r ec o n
30、 d u c t e db yu s i n gS c u t e l l a r i ad a t a T h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h es t a n d a r dT C Mf i n g e r p r i n t sc o n s t r u c t e db a s e do nc l u s t e rt h e o r i e sa r eb e t t e rt h a nt h et r a d i t i o n a ls t a n d a r dT C Mf i n g e r p
31、r i n t si nT C Mc l a s s i f i c a t i o n I ti saf e a s i b l em e t h o df o rc o n s t r u c t i o no fs t a n d a r dT C Mf i n g e r p r i n t s K e yw o r d s:T C Mf i n g e r p r i n t,c l u s t e ra n a l y s i s,i n f o r m a t i o nf u s i o n,v i s u a l i z a t i o n-1 0 3-万方数据基于多参数距离
32、融合聚类原理建立中药标准指纹图谱的研究基于多参数距离融合聚类原理建立中药标准指纹图谱的研究作者:崔建新,崔建凤,洪文学,高海波,Cui Jianxin,Cui Jianfeng,Hong Wenxue,Gao Haibo作者单位:崔建新,Cui Jianxin(燕山大学电气工程学院 秦皇岛 066004;河北省测试计量技术及仪器重点实验室 秦皇岛 066004),崔建凤,Cui Jianfeng(秦皇岛职业技术学院旅游系 秦皇岛 066004),洪文学,HongWenxue(燕山大学电气工程学院 秦皇岛 066004),高海波,Gao Haibo(燕山大学电气工程学院 秦皇岛066004;中国中医科学院针灸研究所 北京 100700)刊名:高技术通讯英文刊名:Chinese High Technology Letters年,卷(期):2014,24(1)本文链接:http:/