《原核基因组基因序列相似分析及其对基因预测结果的影响.pdf》由会员分享,可在线阅读,更多相关《原核基因组基因序列相似分析及其对基因预测结果的影响.pdf(54页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 山东师范大学硕士学位论文目 录摘 要 IAbstractIII第一章绪论 IV1.1研究背景11.2国内外研究进展21.3研究内容和创新点41.4论文框架5第二章数据集和研究方法72.1 数据集构建72.2 研究方法7第三章原核基因组蛋白编码基因序列相似性分析123.1基于序列特征的相似性基因数目分析123.2 多拷贝基因的功能分析 133.3 基于密码子偏好的多拷贝基因特征分析203.4 本章小结 22第四章相似性基因序列去冗余对基因注释结果的影响244.1过注释基因预测数目的比较分析244.2 基因注释准确性比较分析 254.3 基因注释结果可靠性验证比较分析 284.4 本章小结 32
2、第五章总结与展望 32参考文献 34攻读硕士期间发表的论文46致谢47山东师范大学硕士学位论文I原核基因组基因序列相似性分析及其对基因预测结果的影响摘 要随着高通量测序技术的发展,发现基因组中普遍存在重复基因现象。基因重复在导致基因数量增大的同时,也为基因突变和正向选择提供原材料,进而为生物体进化提供可能。所以,了解重复基因的生物学意义和进化机制显得尤为重要。目前,对真核基因组中的重复基因研究较多,而对原核基因组中的重复基因、尤其是对多拷贝基因研究鲜有报道。因此,本课题首先对原核生物基因组中重复基因进行了深入统计分析。在此基础上,首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,为今后原
3、核生物进化研究及基因组分析提供可靠的数据和理论基础。另外,基因注释是基因组研究的重要课题,在许多基因注释算法中都采用了蛋白质编码基因序列作为训练集。而许多算法中没有考虑由于重复基因和多拷贝基因的存在导致蛋白质编码基因序列相似性冗余问题。数据集冗余是机器学习中影响预测效率的关键因素之一,序列相似性去冗余已被广泛应用于蛋白质序列相关预测问题中。因此,在对原核生物基因组中重复基因和多拷贝基因研究基础上,本文以两种具有广泛应用的基因重注释算法为例,进一步分析了相似性蛋白质编码基因序列对基因重注释结果的影响,为今后原核生物基因组蛋白质编码基因注释提供可靠的理论基础。论文主要工作包括:1. 首先构建了由R
4、efSeq数据库中下载的98个具有不同G+C含量原核生物基因组组成的数据集,运用CD-HIT软件对各基因组中重复程度80%的基因序列进行了相似性分析和去冗余,然后对各基因组中序列相似性等于100%的多拷贝基因进行了统计分析,结果表明在原核生物基因组中重复基因和多拷贝基因普遍存在,重复基因所占比例016.49%,多拷贝基因在各基因组中所占比例015.93%。对功能已知的多拷贝基因的COG分析表明,近87%的多拷贝基因的COG分类属于“L”,具体的功能分析发现有71.4%的多拷贝基因与编码转座酶相关,说明原核生物中的多拷贝基因的生物功能与环境适应相关。2. 为了研究相似性基因序列对基因注释结果的影
5、响,以Z-curve算法和山东师范大学硕士学位论文IIRPGM算法为例对相似性序列去冗余前、后的预测准确性、过注释基因预测个数和预测结果可靠性进行了深入对比分析。结果表明,去冗余前、后预测准确性和预测个数及其可靠性具有差别。为了研究序列去冗余程度与基因注释结果之间的关系,对两种算法中各基因组中蛋白质编码序列冗余程度与去冗余前后预测效率评价参数的变化程度进行了相关性分析,结果发现两者之间呈现不同程度负相关。因此,本文的分析结果表明蛋白质编码基因序列冗余对基因注释问题的影响是不可忽视的。关键词:原核生物基因组;重复基因;多拷贝基因;序列冗余;基因预测分类号:Q937山东师范大学硕士学位论文IIIS
6、imilarity analysis of protein coding genes and its impact on geneannotation in prokaryotic genomesAbstractWith the development of high-throughput sequencing technologies, theduplicated genes were found to be universal in genomes. Gene duplication can notonly increase the number of gene, but also pro
7、vide materials for gene mutation andpositive selection. At the same time, it can provide possibility for biological evolution.Therefore, understanding the significance of the biological and evolution mechanismof duplicated genes is particularly important. At present, the research of duplicatedgenes
8、in prokaryotic genomes is less than in eukaryotics genome, especially rarely formulti-copied genes. In this dissertation, duplicated genes in prokaryotic genomes werefurther analyzed firstly. On this basis, the multi-copied genes and its function has beensystemly researched for the first time, and a
9、im to provide reliable data and theoreticalbasis for prokaryote evolution research in the future. In addition, gene annotation is animportant topic of the genome research. Protein-coding gene sequences are regardedas the training set in many gene annotation algorithms. However, many algorithmsdidnt
10、consider the similarity redundancy problem due to duplicated genes andmulti-copied genes in protein-coding genes sequence. The redundancy of datacollection is one of key influence factors in machine learning. The cuting offredundancy of sequence similarity has been widely applied in predicting prote
11、insequences. Therefore, in this paper, we analyse the influence of sequence similarity tothe results of gene annotation and aim to provide a reliable theoretical basis for genepredicted. Detailed contributions of this work can be summarized as follows.I. The 98 different GC content prokaryotic genom
12、es were downloaded fromRefSeq database constructed data sets. CD-hit program was used to determine thesimilarity sequence with the threshold of 80% and to cut-off redundant sequences.Then, the multi-copied genes were analysised in all genomes. The statistical resultsshow that the ratio of duplicated
13、 genes is 0%16.49%, the ratio of multi-copied山东师范大学硕士学位论文IVgenes is 015.93%. Thefore, the results show that duplicated genes and multi-copiedgenes are widespread in prokaryotic genomes. The COG classification ofmulti-copied genes analysis shows that about 87% of multi-copied genes belongs toL. The f
14、unction of multi-copied genes analysis shows that about 71.4% ofmulti-copied genes related to coding enzymes. It shows that multi-copied genes arerelated to environmental adaptation.II. In order to study the influence of similarity gene sequences to gene prediction,we contrast genes prediction accur
15、acy, the numbers of reannotation genes, thereliability of prediction genes results before and after redundant with Z-curvealgorithm and RPGM algorithm. The statistical results show that the three aspects areall distinct before and after redundancy. In addition, the correlation analysis ofsequence re
16、dundancy degree and disparity of the various evaluation parameters beforeand after redundancy shows that the two factors have a different degree of negativecorrelation. Therefore, the analysis results show that the influences of protein-codinggene sequences redundancy to gene annotation problem cant
17、 be ignored.Key words: Prokaryotic genomes; Duplicated genes; Multi-copied genes; Sequencesredundancy; Gene prediction.Classification: Q937山东师范大学硕士学位论文1第一章 绪论1.1研究背景“人类基因组计划”1的完成促进了测序技术的迅速发展,大型生物数据库中的生物学数据呈指数形式增长。面对海量的基因组数据,如何挖掘其背后的生物学意义,揭示各种生命现象的奥秘已经成为生物学领域的前沿课题,它需要多学科的融合去共同解决,由此产生了一门新兴的交叉学科生物信息学2。
18、生物信息学是以生物数据为研究对象,以计算机数据库和计算机算法分析为主要研究手段,对大规模的原始数据进行一系列复杂过程的处理,从而获得重要的生物学信息。因此,生物信息学被誉为“解读生命天书的慧眼”3。目前,已有58000多个物种基因组序列被公布5,其中原核生物基因组占78%左右。基因组分析作为生物信息学研究的主要研究领域之一,为解读生命奥秘提供了坚实基础。其中,重复序列和重复基因的研究是基因组分析的重要研究内容。重复序列与重复基因是两个不同的概念。重复序列是没有遗传信息的“垃圾DNA序列” (junk DNA)7,但是,重复序列作为生物基因组中重要的组成部分,在基因组中也发挥着重要的功能。而重复
19、基因是基因,是指能够直接编码蛋白质或对蛋白质编码起间接调控作用的DNA序列,是由基因重复而产生的。基因重复(Gene Duplication)指含有基因的DNA 片段发生重复,产生1个或多个与原基因相似的基因或碱基序列11。这些重复基因中序列结构完全相同的基因成为多拷贝基因。由于这些重复基因和多拷贝基因存在,导致了基因组中相似性基因序列的存在。基因重复对生物体发挥着重要的作用。基因重复导致基因组中基因数量的增加,同时也是新基因产生的基础,这将为基因进化过程中的基因突变和进化选择提供遗传材料,是生物体进化的推动力量15。所以,对重复基因的研究尤为重要。目前,在真核基因组中对重复基因的研究报道很多
20、,尤其在高等被子植物中基因重复现象更为明显12。在一些模式生物中,如拟南芥13、水稻14、果蝇等生物中也都存在着基因重复现象。而对原核基因组中重复基因尤其是多拷贝基因的研究还很少。已有的研究表明,原核生物基因组中重复基因与环境适应相关16,这说明原核基因组中重复基因的存在对生物体发挥着重要的作用。另一方面,基因重复是造成蛋白质编码基因序列冗余的重要原因,在蛋白质预测相关问题山东师范大学硕士学位论文2中,大都考虑了蛋白质序列冗余对预测结果的影响,一般会对训练集中蛋白质序列进行去冗余。而许多蛋白质编码基因注释算法中并没有考虑数据集冗余问题17,18,19。在此背景下,本文首先对原核基因组中重复基因
21、进行统计研究,并首次开展了对原核生物基因组中多拷贝基因的系统分析,进而以目前常用的两种过注释基因预测算法为例,深入研究了由于重复基因导致的相似性蛋白质编码基因序列对基因注释结果的影响。因此,本文为今后原核生物基因组进化研究和蛋白质编码基因预测提供了新思路。1.2国内外研究进展1.2.1重复基因和多拷贝基因研究现状重复基因是生物进化的源泉和重要推动力,长期以来备受人们关注。对基因重复现象的发现最早可以追溯到19世纪90年代末,美国生物学和遗传学教授摩尔根(Thomas Hunt Morgan)教授就已经发现有多倍体的出现,但由于当时认识上的局限性,并未在学术界扩大影响。到20世纪初,Kuwada
22、和Tischler相继发现杂交后代表型的突变和近缘植物形态的变异与基因组中染色体的数量变异有着及其密切的关系20,21。另外,Hermann Muller对果蝇的一个品系进行实验研究时发现X染色体出现基因小片段加倍的现象22。此外,有课题组发现了重复基因在植物抵御不良环境方面有替补缓冲的作用23,这也解释了一个现象,在用物理因素刺激产生突变体时,突变体在多倍体谷物中比在二倍体谷物中更难产生。20世纪70年代学术界对基因加倍研究更加细致和深入,这是一个承上启下的关键时期,尤其是Ohno 发表的关于基因重复的专著Evolution by Gene Duplication,在专著中Ohno阐述了重复
23、基因的进化途径,并证明了基因重复是产生新基因的重要渠道,在进化过程中有着举足轻重的作用24。目前对重复基因的研究所涉及到的真核生物,包括植物、动物、真菌等大部分生物类群,而且通过实验发现不同类型的生物基因重复概率存在差异。例如,在模式植物拟南芥基因组中,重复基因比例达到65%25,在水稻基因组的第11 号和第 12 号染色体上发现有片段重复基因,在整个基因组中重复比例占65.7%26。而在果蝇基因组中,约有 8%到 20%的基因来源于基因重复,在人类基因组中有15%的蛋白质编码基因属于重复基因27,在啤酒酵母中有大约10%的山东师范大学硕士学位论文3基因来源于全基因组重复。在原核基因组中重复基
24、因的报道较少,有研究表明在脑膜炎奈瑟氏菌(Neisseriameningitides)中,旁系同源基因家族在全基因组中的比例达到32%28。在梅毒螺旋体(Treponemapallidum)中,42个旁系同源家族占全基因组的12%29。在对古细菌的研究中,好热硫磺细菌(Archaeoglobusfulgidus)的旁系同源基因家族占到30%30。2010年,Marit S Bratlie等人对选取的897个原核基因组进行分析16,发现重复基因普遍存在,并且对从中选取的200个重复基因比例较高的基因组进行了系统分析,其中重复比例最少的是酿脓链球菌(Streptococcuspyogenes st
25、rain MGAS8232) ,仅为2.28%。重复比例最高的是翠菊黄花病植原体(Aster yellows witches-broom phytoplasma strain AYWB),达到12.12%。又通过双聚类方法分析重复基因的性能与所在原核生物生活类型的关系,证明在原核生物基因组中重复基因与环境适应相关。所以,对原核基因组中重复基因的研究有着重要的生物学意义。关于多拷贝基因,在哺乳动物基因组中研究较多。研究表明多拷贝重复基因对生物体基因组有正面作用,如哺乳动物体内的磷酸甘油酸激酶PGK,是糖酵解的关键酶,在生物体代谢中起着重要的作用。PGK-1 是一个 X性染色体连锁基因,在所有的体
26、细胞中都有表达,Pgk2是位于常染色体上并只在精子发生细胞中表达的基因31,对精子的发生具有调控作用32,PGK-2基因的异常表达或缺失都会影响精子的形成。当精母细胞中性X染色体上的 PKG-1 表达受到抑制时,PKG-2 基因的存在起到了很好的补偿作用。另外,在旧世纪猴中的EDN和ECP基因33,起源于一次基因重复事件, ECP是EDN的重复拷贝基因,都属于RNase A基因家族,但ECP基因出现了抗菌性的新功能,而EDN基因则不具备抗菌活性34。从基因重复产生新功能这个层面来说,也在生物体基因组中发挥了重要作用。还有研究表明,在亚洲毛臀叶猴的胰腺中有两个核糖核酸酶基因RNASE1和RNAS
27、E1B,RNASE1B是RNASE1的重复拷贝基因,RNASE1B在 PH 为 6.3 的环境中仍能保持较高的活性,而原始拷贝的最适 PH 值为 7.4,这就说明复制拷贝 RNASE1B 的进化是对微环境改变的一种适应35。另外,多拷贝基因在一定程度上可判断物种的亲缘关系36。有研究者对家驴和家马Y染色体多拷贝基因进行鉴定,发现这两个物种在Y染色体上有9个相同的多拷贝基因片段,证明这两个物种的亲缘关系很近。以上是在真核生物中对多拷贝基因的一些研究,而目前对原核基因组中功能已知多拷贝蛋白编码基因功能研究还少有报道。因此,本文山东师范大学硕士学位论文4除了对原核蛋白编码基因组中的重复基因进行统计外
28、,将对原核生物多拷贝蛋白编码基因进行系统的功能分析。1.2.2相似性蛋白质编码基因序列对基因注释的影响重复基因和多拷贝基因产生了基因组中相似性蛋白质编码序列。而序列相似性造成的训练集冗余会对对预测结果会产生影响。目前,在蛋白质相关预测问题中已考虑了相似性序列去冗余问题。例如,2011年,Hao Lin 等人利用支持向量机对离子通道和其类型进行预测时,去除了特征冗余序列37;2012年,Wei Chen等人利用支持向量机对电压门控钾离子通道辅助亚基进行预测时,为了获得一个高质量的数据集,考虑的其中一个方面就是去掉数据集中高相似性的序列,在文章中用CD-HIT软件去掉序列相似性大于60%的序列后对
29、模型进行训练38;2013年,Lu-Feng Yuan等人首次利用基于径向基函数网络的计算机模型对芋螺毒素的靶向离子通道进行预测,为了提高预测模型的准确性,文中除了采用二项分布的方法优化二肽外,还对数据集中的蛋白质序列进行了去冗余处理39;2013年,Hui Ding等人利用基于氨基酸序列特征的支持向量机模型对高尔基体蛋白类型进行预测时,为了提高预测模型的准确性,文中去除了相似性高的序列,选取相似度小于25%的蛋白质序列构成数据集对模型进行训练40。对原核生物基因组中蛋白质编码基因的预测已持续了近30年,许多基因注释或重注释算法被提出,如运用马尔可夫模型(hidden markov model
30、,HMM)41构建的Glimmer42基因预测软件、GenScan43基因预测软件、运用多元熵距离法44构建的MED 2.0是基因预测软件、GeneMark3.0245、Prodigal46、Rast47,还有一些统计学模型比如神经网络(neural network,NN)48、线性判别分析(lineardiscriminant analysis,LDA)49、傅立叶分析(fourier analysis)等50。然而,在许多基因注释算法中没有考虑到训练集中序列冗余问题。大量研究表明目前的原核生物基因组基因注释远没有达到人们预期效果,甚至产生了大量错误注释的不断积累。因此,深入分析训练集中蛋白
31、质编码基因序列冗余对基因注释结果的影响对提高基因预测效率具有重要意义。本文以目前应用较为广泛的Z-curve算法和RPGM算法为例,系统研究了蛋白质编码基因序列相似性对基因注释结果的影响,对今后基因预测提供了坚实的理论基础。山东师范大学硕士学位论文51.3.1研究内容首先建立了来自94个不同G+C含量原核生物的98个基因组构成的数据集。然后,对原核基因组多拷贝基因和蛋白编码基因序列相似性及其生物功能进行了统计分析。最后,以Z-curve算法和RPGM算法为例,深入分析了蛋白质编码基因序列冗余对基因注释结果的影响。1.3.2创新点本课题首次对原核生物基因组中多拷贝基因及其功能进行了系统研究,深入
32、分析了相似性蛋白质编码基因序列对基因注释结果的影响。1.4论文框架论文总共包括五章内容:第一章为绪论,主要介绍课题研究的背景知识;第二章介绍数据集的构建和研究方法;第三章是对原核基因组中重复基因序列进行分析,并重点对多拷贝基因及其功能进行系统研究;第四章主要利用Z-curve算法和RPGM算法分析相似性蛋白质编码基因序列对基因预测结果的影响。第五章为总结与展望。1.3 研究内容和创新点山东师范大学硕士学位论文6第二章 数据集和研究方法2.1 数据集构建本课题所用基因组信息及相应的蛋白质编码基因序列从RefSeq数据库下载,共有来自94个不同G+C含量原核生物的98个的原核基因组(见附表1)。其
33、次,考虑到计算复杂性,我们从上述98个基因组里随机选24个(其中有4个基因组是同一菌株Agrobacteriumfabrum str. C58的2个染色体组和2个质粒,分别是:NC_003062,NC_003063,NC_003065,NC_003064。)不同G+C含量基因组为例来研究序列相似性对基因预测结果的影响,这24个原核基因组信息见表2.1。 表2.1 24个不同G+C含量范围原核生物基因组信息物种名称 序列号 G+C(%)ClostridiumbotulinumA str. ATCC 3502 NC_009495 28.19Peptoclostridiumdifficile CD1
34、96 NC_013315 28.60Peptoclostridiumdifficile R20291 NC_013316 28.80Peptoclostridiumdifficile 630 NC_009089 29.10Staphylococcusaureus subsp. aureus NCTC 8325 NC_007795 32.90LeptospirainterrogansserovarCopenhageni str. FiocruzL1-130 NC_005823 35.00LeptospirainterrogansserovarLai str. 56601 NC_004342 35
35、.00Bacillusanthracis str. Sterne NC_005945 35.40Photorhabdusasymbiotica NC_012962 42.20Vibriocholerae MJ-1236 NC_012668 47.50Yersiniapestis CO92 NC_003143 47.60VibriocholeraeO1 str. 2010EL-1786 NC_016445 47.70Escherichiacoli IAI39 NC_011750 50.60Escherichiacoli BL21-Gold(DE3)pLysS AG NC_012947 50.80
36、SA str. ATCalmonellaenterica subsp. entericaserovarParatyphi C 9150 NC_006511 52.20Agrobacteriumfabrum str. C58 NC_003065 56.70NC_003064 57.30NC_003063 59.30NC_003062 59.40Geobactersulfurreducens PCA NC_002939 60.90Mycobacteriumtuberculosis F11 NC_009565 65.60Pseudomonasaeruginosa LESB58 NC_011770 6
37、6.30Pseudomonasaeruginosa PAO1 NC_002516 66.60Streptomyces sp. SirexAA-E NC_015953 71.70山东师范大学硕士学位论文7本文采用的Z-curve和RPGM过注释基因预测算法首先要建立训练集,包括正样本(真正的蛋白编码基因)和负样本(非蛋白编码序列)。正样本是从每个原核蛋白编码基因组中筛选出来的功能已知的蛋白编码基因,筛选的方法是去除蛋白编码基因组中那些带有不同前缀的功能不确定的基因序列,如带有putative、probable、possible、possibly、similar、alternate、unchara
38、cterized、unknown、predicted、conserved及hypothetical等前缀的基因序列,剩下的认为是功能已知的蛋白编码基因序列51。由于原核基因组中非编码基因很少,负样本的选择比较困难,这里利用Guo等人52提出的方法,将蛋白编码序列随机打乱形成非编码序列,然后取其互补序列作为负样本。测试集由每个基因组中注释有hypothetical前缀的蛋白质编码序列构成(需要说明的是,对于Agrobacteriumfabrum str. C58菌株中的4个基因组构建训练集时,将上述4个基因组看成一个研究对象)。2.2研究方法2.2.1 相似性蛋白质编码基因序列分析及去冗余基于本
39、文构建98个基因组中的蛋白质编码基因,按照以下步骤进行相似性分析。首先是对完全重复的基因序列即多拷贝重复基因序列进行分析,然后以80%为阈值,对序列相似性大于等于该阈值的基因序列进行统计分析。相似性大于等于80%的基因序列的识别和序列去冗余通过CD-HIT 4软件完成。对于重复基因相似性程度的设定,在具体操作中会有不同,例如,在Marit S Bratlie等人16的工作中,把重复基因的阈值设为75%。本文重点考虑蛋白质编码基因序列去冗余对基因注释结果的影响,上述阈值的不同不会影响本文的分析结果。2.2.2 过注释基因预测算法及评价参数对原核基因组中蛋白质编码基因的基因注释已开展了近30年。由
40、于缺少内含子,人们一直以来认为原核基因组中蛋白质编码基因预测更加容易,但最近越来越多的研究表明目前数据库中普遍存在蛋白质编码基因错误注释问题,注释质量受到人们的质疑8,9,10。大量非编码序列被错误预测为蛋白编码基因,被称为过注释基因。这些错误信息的不断积累严重影响了目前数据库的使用质量,甚至会导致错误结论的产生。为此,许多课题组提出了针对过注释基因的预测算法,其山东师范大学硕士学位论文8中Z-curve算法和RPGM算法是目前应用较为广泛的两种过注释基因预测算法。这两种算法都以功能已知蛋白质编码基因及其对应的随机打乱序列作为训练集正样本和负样本,也都没有考虑序列相似性冗余问题。因此本论文以这
41、两种方法为例说明序列相似性对基因注释结果的影响。2.2.2.1 Z-curve算法Z-curve算法已在包括病毒、细菌和古细菌在内的原核基因组中得到广泛应用52,53。该算法提出了21个特征参数来描述DNA序列内部信息,在Zhang的文章中对参数的设置做了具体描述54,本文中只做简单介绍。首先,由Z-curve发展得到的相位特异性单核苷酸频率参数为(33=9)。假设碱基A、C、G 和 T 在一段DNA序列密码子中的位置 1、4、7、; 2、5、8、;和 3、6、9、.,出现的频率分别用a1,c1,g1,t1; a2,c2,g2,t2; a3,c3,g3,t3来表示,那么根据Z-curve理论变
42、换可将ai、ci、g i、ti (i = 1,2,3)投影到三维空间中的Pi点上,其坐标表示为:i ( ) ( )( ) ( )( ) ( )i i i ii i i i ii i i i ia g c ty a c g tz a t g c x (2.1)密码子每个位点上碱基组成特征都可以用xi、yi、zi三个特征参数来描述,这样就可以得到9个特征参数: 1 1 2 1 3 14 2 5 2 6 27 3 8 3 9 3x , ,x , ,x , ,u u y u zu u y u zu u y u z (2.2)另外,还可以得到12个相位特异性二联体参数。DNA序列中四种碱基A、C、G和T
43、可以构成16种二联体,假设用p(AA),p(AC). p(TT) 分别表示16 种二联体AA、AC. TT 的百分含量,根据Z-curve理论变换可表示为: XXXx p XA p XG p XC p XTy p XA p XC p XG p XTz p XA p XT p XG p XC (2.3)这里X = A,C,G,T,由此得到的12 个特征参数为:山东师范大学硕士学位论文910 11 1213 14 1516 17 1819 20 21, , , , , ,A A AC C CG G GT T Tu x u y u zu x u y u zu x u y u zu x u y u z (2.4)为了完成对过注释基因的预测,Z-curve算法利用了Fishe