《预测蛋白质和RNA相互作用的方法研究,生物工程论文.docx》由会员分享,可在线阅读,更多相关《预测蛋白质和RNA相互作用的方法研究,生物工程论文.docx(10页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、预测蛋白质和RNA相互作用的方法研究,生物工程论文蛋白质与 RNA 的互相作用在很多生理经过中起着重要的作用,RNA 介入很多基本的细胞生理经过,如携带来自 DNA 的遗传信息,介入构成核糖体、拼接体、端粒酶等很多核酸蛋白颗粒的构造,有些 RNA 还具有酶活性等,几乎所有的 RNA 生物功能的发挥都需要蛋白质的共同作用。 蛋白质和RNA 互相作用的研究为最终探明 RNA 和蛋白质互相作用的分子机制,从本质上认识相关细胞生理经过起着不可忽视的重要作用。 采用实验的方式方法预测蛋白质和 RNA 的互相作用有很大的局限性,或因实验步骤太多,既耗时又费力,也增加了实验结果的不稳定性。 因而,利用计算的
2、方式方法预测蛋白质和 RNA 互相作用成为当下的一大趋势。近年来,由于 RNA 本身的复杂性导致蛋白质和 RNA 互相作用的研究一直处于滞后状态。 但是随着实验获取的 RNA 数据以及蛋白质和 RNA 复合物数据的增加,蛋白质和 RNA 互相作用的预测方式方法研究成为当前非常紧迫的一项重要课题。2018 年,Pancaldi 和 Bahler1初次提出了一种预测蛋白质和 RNA 互相作用的方式方法,选取 100 多种显着性较高的特征包括 Gene Ontology 条款,基因和蛋白质的物理性质,mRNA 性质,蛋白质的二级构造以及基因的互相作用 genetic interactions等构建特
3、征向量。 然而,由于该文中用到的特征种类较多,有些特征不易获取,所以这种方式方法具有一定的局限性。 同年,Bellucci 等人2提出一种新的预测蛋白质 - RNA 互相作用的方式方法 catRAPID,考虑存在于氨基酸链和核苷酸链中的几乎所有关联,从中选取了倾向性较高的二级构造、氢键和范德华这三种性质,并基于此计算每个 RNA 和蛋白质对的互相作用倾向性,用于预测蛋白质和 NRA的互相作用。 以上两种方式方法均考虑了蛋白质和RNA 多种性质特征。 对于现有的蛋白质 - RNA 数据而言,都有着一定的局限性。 于是在 2018 年和2020 年,文献3-4主要基于蛋白质和 RNA 序列信息,即
4、氨基酸和核苷酸的成分特征,构建机器学习模型。 在研究4中,基于蛋白质序列中氨基酸组成成分以及 RNA 序列中核苷酸组成成分,通过特征选取的方式方法提取有效特征构建向量,进而构建预测模型。 通过对多组数据的预测,证实了特征选取方式方法以及预测模型的有效性。 但是,特征选取方式方法也存在一个弊端,即被选取的特征在某种程度上依靠于样本数据。本文基于蛋白质和 RNA 序列,提出了一种新的预测蛋白质 - RNA 互相作用的方式方法。 本文只考虑了氨基酸三联体和核苷酸的组成成分,利用其成分比率以及氨基酸三联体 - 核苷酸互相作用倾向性构建了一种新的用于衡量蛋白质和 RNA 序列对个体的三联体 - 核苷酸倾
5、向性度量,并利用该倾向性以及氨基酸三联体和核苷酸的成分特征构建支持向量机support vector machine,SVM模型,预测其互相作用。1 预测模型和算法1. 1 氨基酸三联体 - 核苷酸的互相作用倾向性氨基酸三联体5指的是三个连续的氨基酸构成的一个整体。 蛋白质序列有 20 种氨基酸,则三联体的总个数为20 20 20 = 8 000 个;RNA 序列中有 4 种核苷酸,因此共有 8 000 4 =32 000 个氨基酸三联体 - 核苷酸组合。 在文献6中,针对一组来自于蛋白质数据库PDB的3149 个具有互相作用的蛋白质 - RNA 对,利用文献6中氨基酸三联体 - 核苷酸的互相
6、作用倾向性度量,即文献6中式1,计算得到了氨基酸三联体 - 核苷酸的互相作用倾向性值,见附表 1.附表 1 中出示了 32 000 个三联体 - 核苷酸组合的倾向性值,这些值是针对来自 PDB 的 3149 个蛋白质 - RNA 序列对这个整体数据集而言,氨基酸三联体 - 核苷酸的互相作用倾向性,在这里称之为整体三联体 - 核苷酸倾向性。蛋白质和 RNA 能否互相作用主要取决于氨基酸和核苷酸位点的结合上。 因而本文试图利用氨基酸三联体 - 核苷酸的倾向性这一性质构建特征向量。 为了更好地度量每一对蛋白质 - RNA 序列个体对中三联体 - 核苷酸的互相作用倾向性,我们重新定义了一个权重倾向性度
7、量,可以称为个体三联体 - 核苷酸倾向性度量,如下:PRIPtb= IPtb NtNP NbNR1华而不实,P 表示蛋白质序列; R 表示 RNA 序列; t 表示蛋白质序列 P 中的氨基酸三联体; b 表示 RNA序列 R 中的核苷酸; Nt,Nb分别表示蛋白质序列P 中氨基酸三联体 t 的数量和 RNA 序列中核苷酸b 的数量; NP,NR表示蛋白质序列 P 中所有氨基酸三联体的数量和 RNA 序列中所有核苷酸的数量; IPtb表示由文献6中整体三联体 - 核苷酸倾向性度量公式1计算得到的三联体 t 和核苷酸 b 的互相作用倾向性值,它表示的是三联体 t和核苷酸 b 的整体倾向性,而本文中
8、式1计算的 PRIPtb值表示的是一对蛋白质 - RNA 序列个体中三联体 t 和核苷酸 b 的互相作用倾向性。 下面均用三联体 - 核苷酸的整体倾向性表示来自于文献6中的度量公式1计算得到的倾向性,即IPtb;用三联体 - 核苷酸的个体倾向性表示由本文中的权重倾向性度量公式1计算得到的倾向性,即 PRIPtb.1. 2 构建特征向量为了预测一对蛋白质 - RNA 序列能否互相作用,利用氨基酸三联体 - 核苷酸的个体倾向性编译特征向量。 首先,根据极性和侧链容积等性质,把 20 种氨基酸分成 7 类5,依次是: A,G,V, I,L,F,P, Y,M,T,S, H,N,Q,W, R,K, D,
9、E, C . 在文献5中,作者利用氨基酸三联体有效地预测蛋白质 - 蛋白质互相作用。 本文中也同样使用三联体特征。 20 种氨基酸被分成7 类,此时三联体共有7 7 7 = 343类,依次能够计算出三联体 - 核苷酸的组合个数为343 4 = 1372 . 给定一对蛋白质 - RNA 序列,构造如下特征向量:1. 2. 1 个体氨基酸三联体 - 核苷酸倾向性第一,利用整体倾向性度量公式6分别计算出所有 32 000 个三联体 - 核苷酸组合的互相作用倾向性值 IPtb;第二,基于 32000 个整体倾向性 IPtb,计算每类三联体 - 核苷酸倾向性的均值,用来表示这类三联体 - 核苷酸的倾向性
10、值,共有343 4 = 1372个倾向性;第三,针对每一对蛋白质 - RNA 序列,利用权重倾向性度量公式1计算这对序列中每类三联体 - 核苷酸的个体倾向性,并以此作为特征向量。 此时式1中的 IPtb表示的是由第二步计算得到的每类三联体 - 核苷酸倾向性均值,Nt表示的是蛋白质序列中每类三联体的数量;第四,考虑到组合特征的冗余性,从中选择具有较高倾向性的三联体 - 核苷酸组合,并以这些三联体 - 核苷酸组合为基础建立特征向量。1. 2. 2 氨基酸三联体和核苷酸成分特征第一,对于一个蛋白质序列,计算 343 类三联体的成分比率;第二,对于一个 RNA 序列,计算 4 种核苷酸的成分比率。1.
11、 3 样本数据为了证明预测的有效性,本文主要针对两组不同种类的数据集进行预测:一组是来自 NPInter数据库http:/ / bioinfo. org. cn/NPInter 的367 对长链非编码 RNA 简称 ncRNA 和蛋白质互相作用的数据集 PRI367,见表 1;另一组是来自PRIDB7的非冗余数据 集 PRI3692,见 表 2.PRIDB 是一个从 PDB8里提取的一个综合的蛋白质和 RNA 复合物的数据库。【1】负样本数据的选取我们采纳大多数文献中的方式方法,即随机选取与正样本数据一样数量的蛋白质和 RNA 序列对作为负样本数据集,但是前提是排除那些已经知道有互相作用的蛋白
12、质 - RNA 对。1. 4 预测模型和算法支持向量机SVM是 Vapnik 等人提出的一类新型机器学习方式方法,是基于统计学习理论、根据构造风险最小化原理而推导出来的。 由于 SVM 出色的学习能力,普遍应用于生物信息学研究中,很多生物信息学中的分类问题都是利用 SVM 进行分类的。 本文也采用 SVM 对蛋白质 - RNA 能否有互相作用进行分类预测。这里简单地介绍一下支持向量分类机的模型:对于一个给定的训练集T = x1,c1,x2,c2, ,xl,cl华而不实,xi=xi1,xi2, ,xinT Rn是输入input,表示第 i 个输入样本的 n 个特征; ci - 1,+ 1是输出o
13、utput,表示第 i 个样本所属的分类。 引入从输入空间到 Hilbert 空间的映射 :Rn H.支持向量机就是为了寻找一个 Hilbert 空间的超平面 x+ b = 0,使得在最大间隔的基础上将样本尽可能的分开。 通过使用核函数替代样本在 Hilbert 空间中的内积,来判别样本所属类别。 考虑到 RBF 核函数优于其他核函数,本文使用 RBF 核函数。本文利用公开软件 LibSVMversion 3. 18训练 SVM 中的 C - SVC,其性能依靠于参数的选择,所需选择的参数为: C 和 gamma . 华而不实 C 是惩罚参数,是对错分点的惩罚; gamma 是 RBF 核函数
14、中的参数,它决定向量机的推广能力。2 计算结果及讨论在计算中,参数 C = 200 和 gamma = 0. 1. 使用 10 折穿插验证程序评价我们的预测算法,预测结果的有效性主要考虑了下面几个指标:ACC = TP + TN / TP + FP + TN + FNSE = TP / TP + FNSP = TN / TN + FPPRE = TP / TP + FP华而不实,TP 表示真的正样本true positives; TN 表示真的负样本true negatives; FP 表示假的正样本false positives 和 FN 表示假的负样本falsenegatives; ACC
15、 正确率,SE 灵敏度,SP 特指度和 PRE 精度。针对两组数据集 PRI367 和 PRI369,分别取100,500,1000 个三联体 - 核苷酸组合特征建立特征向量进行计算,结果见表 1 和表 2. 华而不实N-feature 表示所选取的三联体 - 核苷酸倾向性的个数。 由计算结果能够看出,随着所选特征的增加,RPI369 的正确率有一定的提高,而 RPI367 的正确率反而降低了。 当特征个数增加到 1 000 时,正确率没有太大的变化。 而在当前仅仅基于序列预测蛋白质 - RNA 互相作用的工作3中,对RPI369 数据集使用两种分类方式方法 RF 和 SVM施行 10 折穿插
16、验证,正确率分别为 76. 2% 和72. 8% . 在以前的研究工作中,基于 Nave Bayes-ian 的分类方式方法对 RPI367 和 RPI369 进行 10 折穿插验证,正确率仅仅到达 77. 6% 和 75. 0%. 通过比拟,能够看出本文的计算结果更好一些。氨基酸三联体和核苷酸的互相作用倾向性被用于预测 RNA 结合位点得到了很好的预测结果,于是我们试图把它运用到蛋白质 - RNA 互相作用的预测中。 考虑到每对蛋白质 - RNA 序列中三联体 - 核苷酸的倾向性的差异不同,重新定义了一个权重倾向性度量,然后利用此度量计算每类三联体 - 核苷酸的倾向性。 计算结果证实了本文所
17、选特征的有效性,同时也讲明了三联体 - 核苷酸的互相作用倾向性在蛋白质 - RNA 互相作用预测中起着不可忽视的重要作用。以下为参考文献:1PANCALDI V,BAHLER J. In silico characterizationand prediction of global protein RNA interactions inyeastJ. Nucleic Acids Res. ,2018,39: 5826-5836.2BELLUCCI M,AGOSTINI F,MASIN M,et al. Predic-ting protein associations with long non
18、coding RNAsJ.Nat. Methods,20188:444-445.3MUPPIRALA U K,HONAVAR V G,DOBBS D. Predic-ting RNA-protein interactions using only sequence infor-mationJ. BMC Bioinformatics,2018,12: 489.4WANG Y,CHEN X W,LIU Z P,et al. De novo predic-tion of RNA-protein interactions from sequence informa-tionJ. Mol. BioSys
19、t. ,20209: 133-142.5SHEN J,ZHANG J,LUO X,et al. Predicting protein-protein interactions based only on sequences informationJ. Proc. Natl. Acad. Sci. U. S. A.,2007,104:4337-4341.6CHOI S,HAN K. Prediction of RNA-binding aminoacids from protein and RNA sequences. BMC Bioinfor-maticsJ. 2018,12Suppl 13:7.7LEWIS BA,WALIA R R,TERRIBILINI M,et al.PRIDB:a Protein-RNA Interface DatabaseJ. NucleicAcids Res. ,2018,39: 80-82.8BERMAN H M,WESTBROOK J,FENG Z,et al. TheProtein Data BankJ. Nucleic Acids Res.,2000,28:235-242.