《2022年遗传神经网络及其在蛋白质二级结构预测中的应用 .pdf》由会员分享,可在线阅读,更多相关《2022年遗传神经网络及其在蛋白质二级结构预测中的应用 .pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Vol. 22(2002)No. 2数 学 杂 志J. of Math. ( PRC )遗传神经网络及其在蛋白质二级结构预测中的应用王龙会 石 峰(武汉大学数学与统计学院,武汉 430072)摘要:本文从两个方面对传统的神经网络预测蛋白质二级结构的模型进行改进:一是从算法入手,结合遗传算法,形成遗传神经网络,努力使迭代朝全局最优的方向进行;二是从神经网络的输入层着手,添加反映残基和预测中心位置距离的单元.结果表明,改进的模型对螺旋预测正确率有很大的提高,从L1Howard Holley等人的59120 %到68167 %.关键词:蛋白质二级结构预测;神经网络;遗传算法MR (2000)主题分类
2、号: 92B20中图法分类号: O242128;Q71文献标识码:A文章编号:025527797(2002)02201792061 前言通过对已知空间结构的蛋白质分子的研究和分析,人们发现尽管一条多肽链可能采取的构象数目是相当大的,但是在蛋白质分子中,由二级结构组装而形成一定的空间结构的方式却是有限的.因此,蛋白质的二级结构预测就成为解决由蛋白质的一级序列预测其空间结构这一问题的最关键的步骤.科学家们已经用很多方法探索过这个问题,有的利用氨其酸的物理化学性质,有的利用序列同源和模式匹配,还有的对已知的蛋白质结构进行统计分析等等.L. Howard Holley 和 Martin Karplus
3、在 1988年提出用神经网络预测蛋白质二级结构,他们的方法对蛋白质二级结构的三种状态:螺旋 、 折叠和卷曲预测总的正确率为63 %.与之前的其他各种方法比较,他们的正确率是比较高的( 4 ) . 现在一般认为,如果二级结构的预测的预测成功率可以达到80 %的话,我们就可以基本准确地预测一个蛋白质分子的三维空间结构 (2 ).本文将从两个方面改进原有的利用神经网络模型预测蛋白质二级结构的方法:11 从算法方面改进,采用遗传算法和神经网络相结合的优化算法,提高计算效率,努力使迭代过程朝着全局最优的方向前进.21 对神经网络的输入层稍加改变,考虑距离对结构的影响.收稿日期: 20012012101基
4、金项目:武汉大学自强创新科研基金资助项目1名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 2 遗传神经网络的基本思想遗传算法 遗传算法主要借用生物进化中“适者生存”的规律.“适者生存” 揭示了大自然生物进化过程中的一个规律:最适合自然环境的群体往往产生更大的后代群体.遗传算法包含以下主要处理步骤:第一,对优化问题的解进行编码.我们称一个解的编码为一个染色体,组成编码的元素称为基因.编码的目的主要是用于优化问题解的表现形式和利于之
5、后遗传算法中的计算.第二,是适应函数f的构造.适应函数基本上依据优化问题的目标函数而定.当适应函数确定以后,自然选择规律是以适应函数值的大小决定的概率分布来确定哪些染色体适应生存,哪些被淘汰.生存下来的染色体组成种群,形成可以繁衍下一代的群体.第三,适应函数值的计算.第四,染色体的结合,产生新个体,使解具有更大的遍历性.根据遗传概率,利用下述操作产生新群体:1)选择 将已有的优良个体复制后添入新群体中,淘汰劣质个体;选择的标准体现在适应值f较大的个体被选中的概率较大.也就是说,适合于生存环境的优良个体有更多的繁殖后代的机会,从而使优良个性得以遗传.一般按下式得出的概率值随机选择复制对象:Pi=
6、 fiNi =1fi其中, N为群体的大小. Pi越大,所对应的个体被选中的可能性越大.2)交叉 两个互相配对的染色体按某种方式互相交换其部分基因,形成两个新个体.3)变异 将个体染色体编码中的某些基因用其他等位基因来替换,形成一个新个体.第五,反复执行第三、 第四步,一旦达到终止条件,选择最佳个体作为遗传算法的结果.遗传算法在求带有多参数、 多变量 、 多目标和在多区域但连通性较差的N P-hard优化问题比较有效.而且在求解这些问题的时候,还需要有很强的技巧和对问题有非常深入的了解.不足之处在于单一的遗传算法编码不能全面地将优化问题的约束表示出来,不能保证迭代过程收敛到最优解.人工神经网络
7、神经网络模型是一种由多个神经元单以某种规则连接而成的层次网络结构,其基本原理是这些神经元之间“相互牵制”和 “相互协作”.它有许多好的性质:对不完全信息和带有噪音的信息具有良好的适应性;对非线性输入输出关系的学习更具有优越性;它的学习能力很强.已经证明,其隐节点可以根据需要自由设置,则用一个三层前馈网络就可以以任意精度逼近任意复杂的连续函数.BP 网络是目前应用最广泛的一种学习算法.网络分为输入层、 隐含层和输出层.隐含层可以有一层或多层,节点的传递函数选S型函数: f ( x)= 1/ (1 +e-x) .假设 BP 网络三层节点表示为:输入节点xj,隐节点yi,输出节点: Ol.输入节点与
8、隐节点间的网络权值为:ij,隐节点与输出节点间的网络权值为: Tli,输出节点的期望输出为: tl. BP网络训练步骤如下:用小的随机数对每一层的权值ij和阈值 初始化,还要进行以下参数的设定:设定期望误差最小值:err -goal;设定最大循环次数:max-epoch;设定修正权值的学习速率:一般选取 = 0.010.7;开始进行循环训练:fork= 1:max-epoch.(1)计算网络各层的输出和网络误差:081数 学 杂 志 Vol. 22名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - -
9、- - 第 2 页,共 6 页 - - - - - - - - - 隐节点的输出: yi= f (jijxj2 i) ;输出节点输出: Ol=f (jTijyj2 l) ;所有样本误差: E =pk =1ek,其中ek=nl =1|tl(k)-Ol(k)|, P为样本数, n为输出节点数.(2)计算反向传播的误差变化,以及各层权值的修正值以及新的权值:输出层(隐节点到输出节点间)的修正公式:误差公司:l=( tl-Ol)?Ol?(1 -Ol) ;权值修正: Tli( k+ 1)=Tli( k)+ lyi;阈值修正:l( k+ 1)=l( k)+ l;隐节点(输入层到隐节点数)的修正公式:误差公
10、式:i=yi(1-yi)liTli;权值修正:ij( k+ 1)=ij( k)+ ixj;阈值修正:i( k+ 1)=i( k)+ i.(3)再次计算权值修正后的样本误差E.检查E是否小于err -goal ,若是,训练结束.否则k=k+ 1,程序继续.遗传神经网络模型多层前馈型神经网络BP 是用途最广泛的网络之一,虽然如此,神经网络理论还存在许多缺陷,如训练速度慢,易陷入局部极小和全局搜索能力弱等等.将遗传算法和神经网络相结合,各自发挥特长,用遗传算法来优化连接权值,可望解决这个问题.遗传神经网络的基本思想是首先给出t组初始网络权值,利用 BP算法训练网络得出t组权值,由这t组权值所对应的上
11、下限确定每个权值的取值区间,之后采用浮点数编码(即是真值编码方法,使用的是权值的真实值) ,生成基因群体,用遗传算法寻优.GA 的染色体就是 ANN 的权重 ,GA 的评价函数是: f= 1/ (1+E)其中, E =12Nk=1( tk-Ok)2;这里, ( xk,tk) ( k= 1,2, P)为学习样本, Ok为网络实际输出,其具体过程为:第一步:随机产生t组在不同实数区间内取值的初始网络权值;第二步:用 BP 算法对这t组初始权值分别进行预训练,若经过若干次训练后,这t组权值中有一组满足精度要求,则算法结束;否则转入第三步.第三步:分别依据经过预训练的上述t组权值所对应的上下限确定取值
12、区间 Umin,Umax ,然后采用浮点数编码,构成完整的基因群体;第四步:对这组权值进行选择、 交叉 、 变异等遗传操作,产生新一代群体;第五步:计算染色体的适应值f ;第六步:如果经过第五步已得到符合精度要求的权值或达到最大迭代次数,则算法结束;否则,转到第三步.3 学习和检验模型所用的数据我们基于Kbasch和 Sander的工作对蛋白质的二级结构进行分类. 对 BrookhavenProteinDataBank 已知结构分为:helices( H) 和 sheets ( E) ;既非 H 又非 E的残基都归为coil 类 .我们所用的蛋白质都来源于BrookhavenProteinDa
13、taBank ,总共有 65 个 . 其中前 49 个蛋白质作为学习集 ,共有 13017个残基 .后 16个作为检验集,共有 3665个残基 . 它们三种二级结构所占百分比如下 :学习集: H :31.03 %E.22.44 %Coil :46.53%检验集: H :32.21 % E.20.54 % Coil :47.25%181No. 2 王龙会等 遗传神经网络及其在蛋白质二级结构预测中的应用名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 6 页 - - - - -
14、 - - - - 4 遗传神经网络用于预测蛋白质二级结构在神经网络中,我们输入的是已知的一级序列,输出的是二级结构的类型.本文所采用的神经网络包含一个输入层,一个隐含层,一个输出层,其结构图见图1.每层间都采用S型传递函数,其表达式为: f ( x)= 1/ (1 +e-x) .输入层是一个沿着氨基酸序列移动的窗口,预测是对窗口中间位置的氨基酸进行的.窗口的大小定为17,这是因为预测位置的前后8 个氨基酸与它具有统计相关性(4 ) .对于神经网络的输入,我们采用一种二进制的编码表.组成蛋白质的氨基酸有20 种,用 5 位二进制数可以代表它们.氨基酸和数之间的对应关系如下:A- 1, B- 2,
15、 Y- 20.这时容易知道,氨基酸A的编码是:00001,氨基酸B的编码是:00010,氨基酸Y的编码是:10010.别的可以依次类推.另一方面考虑距离对结构的影响,在每个窗口增加一个表示距离的输入单元.我们认为离中心预测位置越近的氨基酸对其二级结构的影响越大.所以我们这样对新增加的单元编码.中心位置标号为0.上下依次标号为1 到 8.标号为k ( k= 1,2,8)的氨基酸的输入编码的第六个单元值为1/ k.中心位置表示距离的输入单元编码为2.每个窗口对应一个氨基酸,即对应一组6 个输入单元.当窗口移动到蛋白质的氨基或者羧基端的时候,窗口有些位置不对应任何氨基酸,这时候我们不输入任何东西,即
16、产生一个空输入.这样输入层包含17组(每组6个)输入单元.隐含层包含两个单元.输出层也包含两个单元.输出单元二级结构编码如下: (1,0)= 螺旋(helix) ,(0 ,1) = 折叠 ( sheet ) ,(0,0) = 卷曲 (coil) . 实际输出值在0.01.0 之间变化,用一个阈值T(值得注意提是,这里的阈值不是神经网络里面的阈值)将输出值转化成要预测的二级结构类型.当有连续 4 个或者更残基螺旋的输出值比折叠的大,并且比T大,就认为这些残基的二级结构是螺旋.当有连续2 个或者更多的残基折叠的输出值比螺旋的T大时,就认为这些残基二级结构是折叠( 4) .那些既不是螺旋,又不是折叠
17、的残基,我们把统统它们归为卷曲这一类中去.阈值T是根据使学习集二级结构的正确率最高来确定的.利用C语言按照第二部分所给出的算法编写训练程序.网络初始权值是随机产生的.281数 学 杂 志 Vol. 22名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 6 页 - - - - - - - - - 在每一个循环中,所有的学习蛋白质都输入到网络中去,输入层的输入窗口沿着氨基酸链每次移动一个残基.在循环结束的时候,权值得到调整,程序重复进行.权值的调整是向着使总体输出错误E下降的方
18、向进行的.当E下降到一定条件的时候,学习程序就停止.5 结果及其评价评价方法 有很多评价二级结构预测算法好坏的方法.最常用的是简单考虑预测总体正确率,即是所有正确预测三种二级结构的残基的百分比,其计算公式如下:Q3=(P+ P+ Pcoil)/ N其中N是预测的残基的总数目, P是螺旋正确预测的数目,其他也是一样.另外容易给出三种结构各自预测正确的百分比公式: PC()=P/ N,其中N为学习集或者检验集里螺旋的总数目.相关系数是另外一种有效的评价方法.下面是螺旋的相关系数定义公式:C= (pn)-(uo)/(n+ u) (n+ o) (p+ u) (p+ o)其中p是本来是螺旋被预测为螺旋的
19、数目, n是本来不是螺旋被预测为不是螺旋的数目,u是螺旋没有被预测为螺旋的数目, o为非螺旋被预测为螺旋的数目.折叠和卷曲的表达式.结果在给定E= 0.01,err-goal= 0.01,学习速率 = 0.02,交叉和变异概率分别为0.5 和 0.05,种群大小为60,最大迭代次数max-epoch= 200的情况下,对学习集进行训练,找到最好的T的值( T= 0.30) .结果表明,本模型对于螺旋的预测结果比较好,相比较其他方法正确率有效大的提高.表 1 给出了学习和检验集的总体结果.表二给出了部分检验集的结果(关于螺旋的) .表1遗传神经网络学习和检验结果评 估 方 法学习集(49个蛋白质
20、)检验集(16个蛋白质)总体正确率Q376. 60 %64. 78 %百分比法PC()76. 50 %68. 67 %PC()60. 50 %52. 64 %PC( Coil)71. 63 %67. 41 %相关系数法C0. 530. 47C0. 450. 30Ccoil0. 440. 36表2螺旋检验正确率蛋白质序号蛋白质中残基数目PC()1SBD25371. 43 %1SBH27545. 93 %1SCC48275. 34 %2ABH32162. 70 %1GPD33473. 17 %381No. 2 王龙会等 遗传神经网络及其在蛋白质二级结构预测中的应用名师资料总结 - - -精品资料欢
21、迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 5 页,共 6 页 - - - - - - - - - 6 讨论本文针对神经网络和遗传算法的优缺点,将两者结合起来,用于蛋白质二级结构的预测.对螺旋的预测正确率有明显提高.我们的方法仅仅考虑了邻近残基的影响,而忽略了残基间的长程相互作用.至于蛋白质分子的二级结构是否主要取决邻近氨基酸残基间的相互作用,还有待更深入的研究.参考文献:1 王槐春.蛋白质与核酸序列分析基础M.北京:人民军医出版社,1994. 1071682 邹承鲁.第二遗传密码M.长沙:湖南科学出版社,199
22、7. 83963 李春好.人工神经网络BP算法的数据处理方法及应用J .系统工程理论与实践,1997 ,7:1061094 L.Howard Holley &MartinKarplus. Neural Network Applied in Prediction of Protein SecondaryS tructureJ . Bio2physics. 1989 , 86 : 152156PROTEINSECONDARY STRUCTUREPREDICTIONBASED PM GENETIC MEIRANETWORKWANGLong2hui(王龙会 ) SHI Feng(石 峰)( Schoo
23、l of Math.and Statistics , Wuhan University ,430072)Abstract :A method is presentedfor protein secondarystructure prediction basedon a genetic neural network.Itimproved the older neural netw ork model at two aspects:one is from the algorithm , combinedwith genetic algorithm , theother is from the in
24、put layer.The result shows that this method improves the prediction accuracy for 2helix.L.Howards results is : 59. 2 % , and we get 68. 67 %.Keywords : prediction of protein secondary structure; neural network ; genetic algorithmMR 2000 Subject Classification : 92B20481数 学 杂 志 Vol. 22名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 6 页 - - - - - - - - -