《浅析生物信息学研究进展与未来发展.pdf》由会员分享,可在线阅读,更多相关《浅析生物信息学研究进展与未来发展.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学综述生物信息学综述学院:生物与农业工程学院专业:生物工程姓名:黄满鑫学号:日期:2012 年月日浅析生物信息学研究进展与未来发展摘要生物信息学是生物技术的核心,是一门由生物、数学、物理、化学、计算机科学、信息科学等多学科交叉产生的新兴学科。本文介绍了生物信息学的概念,生物信息学产生的背景,生物信息学的主要研究内容,与生物信息学关系密切的数学和计算机科学技术等领域,论述生物信息学发展的现状以及它的未来发展趋势。在这里,重点指出,理解大量生物学数据所包括的生物学意义已成为后基因组时代极其重要的课题。生物信息学的作用将日益重要。通过讨论,有理由确信,今日生物学数据的巨大积累将导致重大生物学
2、规律的发现。关键词:生物信息学 新兴学科 数学和计算机目录前言11 生物信息学概念22 生物信息学产生的背景23 生物信息学的主要研究内容23.1 序列比对33.2 序列分析33.3蛋白质结构预测33.4系统发育分析33.5 药物设计44 与生物信息学关系密切的数学领域45 与生物信息学密切相关的计算机科学技术46生物信息学的发展现状以及未来趋势57 结语5参考文献51前言随着生物技术的迅猛发展,21 世纪已然成为生命科学的时代,也是信息科学的时代。计算机运用能力的提高和国际互联网络的发展为分子生物学从立项直至论文写作提供了一系列的软件工具。为了有效方便的对已知的与生物学相关的大量信息进行科学
3、统筹的管理以及分析利用,一门由多种学科交叉而成的,特别是以分子生物学与计算机信息处理技术紧密结合为基础,新的学科技术生物信息学应运而生。从 20 世纪 80 年代末开始,生物信息学这一由生物、数学、物理、化学、计算机科学、信息科学等多学科交叉产生的新兴学科蓬勃发展,并日渐成为21 世纪自然科学的核心领域。作为多学科结合的综合性学科,生物信息学通过息学、统计学、化学、物理学、计算机等手段对人类基因组计划及其相关衍生计划所产生的海量数据进行科学的分析,极大地提高了研究效率,缩短了研究时间,在当今遗传资源争夺、分秒必争的残酷竞争中发挥着至关重要的作用。特别是在有限的人类遗传资源的“天书”被逐步破解的
4、过程中,生物信息学逐渐承担起越来越重要的角色。1生物信息学的概念生物信息学是基于分子生物学与多种学科交叉,以计算机为工具对生物相关信息进行储存、检索和分析的科学,是当今生命科学和自然科学的重大前沿领域之一。其发展依赖于生物学,计算科学等相关学科不断突破的同时,又为这些学科提供信息、材料及研究方法,并通过对生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识【1】。生物信息学还利用基因组中编码区的信息进行蛋白质空间结构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过程的生理生化信息相结合,阐明其分子机理,最终进行蛋白质核酸的分子设计、药物
5、设计和个体化的医疗保健设计【2】。广义地说,生物信息学是使用数学和信息学的观点、理论和方法去研究生命现象,组织和分析呈指数级增长的生物信息数据的一门学科总之,生物信息学作为一门新的研究领域,它把DNA 序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学、蛋白质空间结构模拟以及药物设计构成了生物信息学的3 个重要组成部分。2生物信息学产生的背景生物信息学的产生最早可以上溯到 1956年在美国田纳西州的Gatlinburg召开的首次“生物学中的信息理论讨论会”【3】。美籍学者Hwa A.Lim首先创造并使用了“bi
6、oinformatics”这个名词。生物信息学是20世纪80年代末随着人类基因组计划的启动而兴起的。美国政府于1990年10月正式启动的人类基因组计划(HumanGenome Project,HGP)【4】,是一项耗资30亿美元的15年计划,预期到2005年弄清人类基因组大约30亿个碱基的全序列,被称为生命科学“登月计划”。随着人类基因组计划的实施,通过基因测序、蛋白质序列测定和结构分析实验,获得了大量不连续的数据,需要利用现代计算机网络技术对这些原始数据进行收集、存储、处理,以便于检索使用;而且为了解释和理解这些数据,还需要对数据进行对比、分析,建立计算模型,进行仿真、预测与验证。美国在最初
7、提出人类基因组计划时就成立了一个由42位专家组成的生物信息研究小组。人类基因组计划的实施,生物学的快速发展以及数学、物理、计算机科学、信息科学的渗入,3使生物信息学逐渐发展成为一门独立的学科并将其推上了生物科学发展的最前沿。3生物信息学的主要研究内容从生物信息学研究的具体内容上看,生物信息学主要包括序列比对、序列分析、功能基因组、基因表达数据分析、蛋白质结构、药物设计等方面。3.1 序列比对在生物学中序列是指核酸或氨基酸序列,序列比对是指比较两个或两个以上符号序列的相似性。双序列比较是将待研究序列与DNA 或蛋白质序列库进行比较,用于确定该序列的生物属性,也就是找出与此序列相似的序列。常用的程
8、序包有BLAST、FASTA 等。多重序列比较是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列比较,以确定该序列与其它序列间的同源性大小。根据序列同源性分析的结果,重建反映物种间进化关系的进化树。常用的构建进化树的算法是UPGMA,软件包有PYLIP、MEGA 等。多重序列比对是当前一个研究热点,常用算法有分治法,HMM 及聚类法等。目前基因组比对也引起研究者们的关注。不同物种间的基因组比对既能够解释和预测他们蛋白质功能的相似性,又能够揭示不同物种间的联系。基因组比对由于涉及上亿的核酸,计算量很耗时,Delcher 提出一种后缀树的方法比较两个基因组。研究基因组比对算法也是一
9、个研究方向。3.2 序列分析随着越来越多生物体的 DNA 序列被人类测定,人们希望通过序列分析来获知其对应的基因和基因调控序列。重新组装在散弹法DNA 测序过程中被打散的DNA 序列,即研究基因重组算法是生物信息学研究的重点课题。基因重组的难点是DNA 有很多重复的区域,相同的片段可能属于不同的区域。由于基因组中并非所有的核酸都构成基因,所以序列分析的另一个研究内容是对基因组中的基因和基因调控序列进行自动识别。基因识别是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点、内含子、外显子和终止密码子等。目前在基因识
10、别方面的算法大体可分为基于统计的方法、基于同源性的方法和基于机器学习(如人工神经网络)方法。同时对非编码区域的识别也很重要。在人类基因组中,编码部分仅占总序列的3%-5%,其它的非编码区可能具有未被识别的功能。分析非编码区DNA 序列需要大胆的想象和崭新的思路【6】。3.3蛋白质结构预测生命活动的执行者是基因的表达产物蛋白质,而研究基因的根本目的在于解释整个生命活动的规律。因此,随着大量基因的破译及鉴定,这些基因编码的蛋白质正成为下一步研究的热点。后基因组中一个重要的方面是蛋白质功能的研究。随着结构基因组的进行,实验测定蛋白质结构的速度逐步加快。越来越多的蛋白质在测定空间结构后尚不清楚其生物功
11、能,因此蛋白质功能预测日益受到重视。研究者将利用所发展的基于关键作用部位的筛选方法进行蛋白质功能的预测。这不仅是分子生物学实验问题,也是一个生物信息学问题【7】。3.4系统发育分析系统发育分析是生物信息学的一个重要分支,它是基于分子数据,即对不同的基因或DNA 片段分析发现它们之间的进化速率存在差异,利用这些差异来研究物种的形成或进化历史,以及有机体之间的进化关系.通过系统发育分析后,则通过一种分支图表即进化树来反映同一谱系的进化关系【8】由于分子数据的获取比化石的数据容易,而且计算机的强大功能为处理庞大数据提供了可能,因此随着分子数据的大量积累,现在各国的科研人员都利用克隆分子片段,结合形5
12、态学分析对科、属、种以及种内的物种进行鉴定,并进行系统发育的分析研究可以根据不同的研究目的,采用不同的序列片段来探究系统发育问题以DN A 序列在植物系统学研究的应用为例,核基因组结构庞大且复杂,进化速率最快,约为叶绿体基因组的2 倍;线粒体基因组还不到叶绿体基因组的 1/31 基因组的编码区具有高度保守的特性,一般可以用于高级阶元的系统发育研究,而非编码区因其在功能上的限制较少,核苷酸容易发生突变可以为系统发育提供更多的信息位点,可多用于较低分类阶元的系统研究中【9】,因此,根据基因组中的不同的片段,对不同分类阶元进行系统学研究是可行的但是,渴望通过计算机来研究整个自然界中准确的物种进化是不
13、现实的,构建的系统发育树有时候甚至会出现严重的错误,所做的也只是一个模拟,并不是百分之百的呈现真实的状况。3.5 药物设计基于生物大分子结构的药物设计是生物信息学中极为重要的研究领域。生物信息学可用于药物靶标基因的发现和验证。有许多数据库可用来获得不同组织在正常/疾病状态下基因表达的差异,通过搜索这些数据库,可以得到候选基因作为药物靶标,特异性地针对某一种疾病。另外,还可根据蛋白质功能区和三维结构的预测来对药物靶标进行鉴定,以便早期了解所研究蛋白的属性,预测它是否适用于药物作用【10】。计算机辅助药物设计主要包括活性位点分析法、数据库搜寻、全新药物设计。目前,活性位点分析软件有DRID、GRE
14、EN、HSITE 等。另外还有一些基于蒙特卡罗、模拟退火技术的软件如MCSS、HINT、BUCKETS等。目前数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法中比较著名的软件有Catalyst 和Unity,而以前者应用更普遍。另一类方法是基于受体的,也称为分子对接法,具代表性的分子对接软件主要有DOCK、F1exX 和GOLD。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其主要软件有LUDI、Leapfrog、GROW、SPROU 以及北京大学来鲁华等开发的 LigBuilder 等,其中LUDI 最为常用。
15、其他,如基因表达谱分析,代谢网络分析,基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。这里不再赘述。4 与生物信息学关系密切的数学领域统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;运筹学,如动态规划法是序列比对的基本工具,最优化理论与算法,在蛋白质空间结构预测和分子对接研究中有重要应用;拓扑学,这里指几何拓扑,在DNA超螺旋研究中是重要的工具,在多肽链折叠研究中也有应用;函数论,如福里叶变换和小波变换等都是生物信息学中的常规工具;信息论,在分子进化、蛋白质结构预测、序列比
16、对中有重要应用,而人工神经网络方法则用途极为广泛;计算数学,如常微分方程数值解法是分子动力学的基本工具【11】;群论,在研究遗传密码和DNA 序列的对称性方面有重要应用;组合数学,在分子进化和基因组序列研究中十分有用。原则上讲,各种数学理论或多或少或直接或间接都应该在生物学研究中有各种各样的应用,其中包括生物信息学,这种情况正像过去的一、两个世纪,数学应用于物理学一样。而且,生物信息学的发展,又为数学的发展提供了一个新的机遇,可能会产生一些新的分支学科。5 与生物信息学密切相关的计算机科学技术首先是网络技术和数据库(特别是关系型数据库)管理技术,包括极为重要的实验室数据信息管理系统(LIMS)
17、【12】。其它诸如数据整合和可视化、数据挖7掘(Data Mining)、基于Unix操作系统的各种软件包以及人工智能,和一些重要算法的复杂性研究【13】。6生物信息学的发展现状以及未来趋势生物信息学是以计算机作为手段来为研究生物学数据的一门学科,自从人类基因组计划开展后,大量的生物序列被测定,如何从这些海量的数据,发现其生物学意义,就需要借助计算机数据库和计算机算法分析预测的手段1数据库的建立是生物信息学发展的基础 目前国际上有三个主要的核苷酸、蛋白质的公共数据库,这三个数据库每天都会进行数据的交换和共享,他们分别是美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)和日本信
18、息生物学中心(CIB)这三个数据库随着生物信息的发展及时更新,为生物信息学的发展提供数据平台1随着后基因组时代的到来,人们把研究的重点转向了功能基因组的研究1 其研究内容也不仅仅是简单的数据的查询和同源性的比较,而是延伸到了生命现象的核心,即从基因、蛋白质研究生命的本质,理解结构与功能、发育与疾病的关系【14】随着计算机技术的进步,针对不同的科研需要构建的网络资源平台、生物分析软件应运而生,为生物学的发展提供了新技术的支持。生物信息学的研究进展表明,生物技术日益需要信息技术,并且越来越依赖信息技术现在许多信息技术手段,尤其是数据挖掘技术如何更紧密更实际地与生物信息学的研究相结合仍然处于不断的探
19、索之中。目前相对而言,理论重于实践,即理论研究比较多,而实际运用还不足。生物信息学的发展在国内外基本上都处在起步阶段,所拥有的条件也大体相同。那么谁能够更充分更高效更快捷地利用信息科学、控制科学、计算机科学等高技术手段来分析和理解数据,谁就能最先发现新线索、新现象和新规律,也是其在生物信息学研究领域取得领先地位的先决条件。生物信息学是一门非常有发展远景的科学,现代信息技术则是它不可或缺的研究手段。7结语生物信息学是一门热点前沿学科,它与多种学科交叉渗透。本研究揭示了生物信息学近十年的发展趋势,以及它与生物化学、计算生物学、生物技术及应用微生物、数据及概率学、计算科学、数学及相关学科等自然学科相
20、交叉的情况。生物信息学的进步依赖于相关学科不断突破的同时,其发展又为这些学科的进步提供信息、材料及研究方法。生物信息学及其跨学科的研究仍处于不断发展的阶段。其在2010 年里的发展速度相对减缓,意味着过去10 年的研究思路仍需进一步突破。加强数学、生物物理学、植物科学等学科与生物信息学之间的跨学科研究,并扩大跨学科的范围至多学科,对这些学科的研究能起到推动作用。同时,研究者应扩宽眼界,不应仅着眼于论文的发表数量,而应注重研究的实际应用。这样不仅能受益更多的科研工作者,同时也能让自己的论文获得更多的引用频次。另外,全球的研究者应将自己的研究成果最大化的共享,正如2001 至2005年间很多的研究
21、者那样把开发的程序、数据库或改进的算法和分析思路放在开放的网络平台上,开拓出更多新的领域能更大程度地推动科技发展。参考文献【1】武妍,胡德华.生物信息学跨学科研究【J】.现代生物医学进展,2012,5(1):137141.【2】陈润生.生物信息学及其研究进展【J】.医学研究通讯,2002,31(12):2126.【3】王正华,王勇献.后基因组时代生物信息学的新进展J.国防科技大学学9报,2003,25(1):1-6.【4】Collins F S.New goals for the U.S.Human Genome Project:1998-2003.【6】冯思玲.生物信息学技术研究【J】.信息
22、技术,2009,20(5):2022.【7】黄科,曹家树,吴秋云,温庆放.生物信息学【.情报学报,2002,(4):.【8】张树波,赖剑煌.分子系统发育分析的生物信息学方法 J.计算机科学,2010,37(8):47-511.【9】田欣,李德铢.DNA 序列在植物系统学研究中的应用 J.云南植物研究,2002,24(2):170-184.【10】CHANGH L,CHENGR L,MING SC.Sliding window f ilter:An efficientmethod for incremental mining on a t ime variant database J.Infor
23、mationSystems,2005,30(3):227-244【11】Madeira SC,Oliveira AL.Biclustering algorithms for biological dataanalysis:A surveyJ.IEEE-ACM Transactions on Computational BiologyANDBioinformatics,2004,1(1):24-45【12】Zhang CL.Significance of gene ranking for classification of microarraysamples J.IEEE-ACM Transactions on Computational BiologyANDBioinformatics,2006,3(3):312-320【13】Popescu M,et al.Fuzzy measures on the gene ontology for geneproductsimilarity J.IEEE-ACMTransactions on Computational BiologyANDBioinformatics,2006,3(3):263-274【14】乔纳森#佩夫斯纳,著,张之荣,译.生物信息学与功能基因组学 M.北京:化学工业出版社.11