生物信息与生物信息学(共13页).docx

上传人:飞****2 文档编号:14309413 上传时间:2022-05-03 格式:DOCX 页数:14 大小:30.88KB
返回 下载 相关 举报
生物信息与生物信息学(共13页).docx_第1页
第1页 / 共14页
生物信息与生物信息学(共13页).docx_第2页
第2页 / 共14页
点击查看更多>>
资源描述

《生物信息与生物信息学(共13页).docx》由会员分享,可在线阅读,更多相关《生物信息与生物信息学(共13页).docx(14页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精选优质文档-倾情为你奉上一、生物信息生物信息是反映生物运动状态和方式的信息。碱基序列便是生物信息。自然界经过漫长时期的演变,产生了生物,逐渐形成了复杂的生物世界。生物信息形形色色,千变万化,不同类的生物发出不同的信息。目前,人们对生物信息的研究已取得了一些可观的成果,人们发现,鸟有“鸟语”,兽有“兽语”,甚至花也有“花语”。人们还发现生物信息与非生物信息之间有着某种必然的联系,如燕子、大雁的飞来飞去,预示着季节的变换和气温的升降;鱼儿浮出水面预示着大雨即将来临;动物的某些反常现象,预示着地震即将发生的信息。简介调节和控制生命活动的信号。是构成生物体的三大要素(物质、能量、信息)之一。生物信息

2、一般可分为遗传信息、神经和感觉信息及化学信息。虽然遗传信息和神经感觉信息的载体都属于化学物质,但通常所指的化学信息是除以上两类物质以外的化学物质所携带和传递的信息。高等生物的激素及昆虫外激素都属于这一类。遗传信息以密码形式存储在DNA分子上,通过DNA的复制传递给子代。在后代生长发育过程中,遗传信息自DNA转录给RNA,后翻译成特异的蛋白质,以执行各种生命功能。神经和感觉信息靠电脉冲和神经递质携带和传递。神经系统接受内外环境中的信息,进行加工处理,调节和控制机体各部分功能。化学信息是除上述两类物质外由化学介质传递的信息。生物体的各种功能能够有条不紊地进行,对环境能及时做出反应,是由于生物体内存

3、在着通过各种各样的化学信息分子进行传递的信息系统。计算机科学与基因组技术的发展,生物信息的概念又成为了基因的计算机数据库、数据处理、基因序列信息、生物系统的计算机分析与软件设计等含义,属于生物信息学或计算生物学的内容,从而形成了另外一种概念。遗传信息遗传信息(genetic information) 指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息, 即碱基对的排列顺序,或指核苷酸的排列顺序,DNA中的脱氧核苷酸、RNA中的核糖核苷酸的排列顺序。研究领域遗传信息是指生物为复制与自己相同的东西、由亲代传递给子代、或各细胞每次分裂时由细胞传递给细胞的信息,即

4、碱基对的排列顺序(或指DNA分子的脱氧核苷酸的排列顺序) 。在1866年首先是由G.J.Mendel(1866)的研究形成了概念,即相应于生物各种性状的因素(称为基因)中包含着相应的信息(以后G.Beadle等人(1941)所开创了遗传生物化学的研究,描绘出这样一个轮廓:基因和决定生物结构与功能的蛋白质之间具有一对一的对应关系。关于基因的化学本质方面,根据O.T.Avery等(1944)进行的转化实验,以及A.Hershey和M.Chase(1952)用大肠杆菌噬菌体的DNA进行的性状表达实验,已阐明DNA是遗传信息的载体。附着DNA结构研究的进展,1960年已经确立了这样的概念,即基因所具有

5、的信息可将DNA的碱基排列进行符号化。信息在表达时,DNA的碱基排列首先被转录成RNA的碱基排列,然后再根据这种排列合成蛋白质。有的病毒的遗传信息的载体不是DNA,而是RNA。遗传信息不仅有相应于蛋白质的基因信息,也包括对信息解读所必需的信息、控制信息表达所必需的信息,以及生物为了复制与自己相同结构所必需的一切信息。种类基因中脱氧核苷酸种类、数目和排列顺序的不同,决定了遗传信息的多样性。遗传传递分类生物体遗传信息的传递的几种类型;中心法则及其补充内容告诉了我们遗传信息的流动方向。其分解过程包含了如下6点:DNA的复制,遗传信息流动方向由DNADNA;DNA的转录,遗传信息流动方向由DNARNA

6、;翻译,遗传信息流动方向由RNA蛋白质;RNA的复制,遗传信息流动方向由RNARNA;RNA的逆转录,遗传信息流动方向由RNADNA;蛋白质的复制,遗传信息流动方向由蛋白质蛋白质。但是究竟在生物体中遗传信息的传递应该包含其6点内容中的几种呢?不同类型的生物,遗传信息的传递过程也有所差异。生物体遗传信息的传递大致分为如下类型:DNA复制型在DNA复制型的生物中,生物体的遗传信息流动包含3点:DNA的自我复制,遗传信息流动方向由DNADNA;DNA的转录和翻译,遗传信息流动方向由DNARNA蛋白质。这种类型的生物主要针对地球上绝大多数的动植物和噬菌体病毒等。RNA复制型在RNA复制型的生物中,生物

7、体的遗传信息流动包含2点:RNA的自我复制,遗传信息流动方向由RNARNA;翻译,遗传信息流动方向由RNA蛋白质。这种类型的生物主要针对植物病毒如烟草花叶病毒和动物病毒如脊髓灰质炎病毒等。也有些遗传信息的流动只有1种:RNA的自我复制,遗传信息流动方向由RNARNA;这种类型的生物主要针对SARS病毒,流感病毒等。RNA逆转录型在RNA逆转录型的生物中,生物体的遗传信息流动包含3点:RNA的逆转录,遗传信息流动方向由RNADNA;转录,遗传信息流动方向由DNARNA,翻译,遗传信息流动方向由RNA蛋白质。这种类型的生物主要针对致癌病毒和导致艾滋病的人体免疫缺陷病毒(HIV)。蛋白质复制型在蛋白

8、质复制类型的生物中,生物体的遗传信息流动包含1点:蛋白质的复制,遗传信息流动方向由蛋白质蛋白质;这种类型的生物2000年以前只发现一种即盛行欧美的疯牛病病毒(朊病毒)。起源遗传信息是由三联体密码子记载的,因此遗传信息的起源归根结底就是密码子的起源问题。迄今为止,提出了若干假说。这些学说分别从偶然性、化学相互作用、协同演化、生化系统起源以及综合作用等不同视角探讨了遗传密码子起源的可能途径,特别是以生化系统构建为目的的从能量转化到信息化的演化机制值得关注。凝固事件假说克里克(Francis Crick)提出凝固事件假说(frozen accident hypothesis),认为密码子与氨基酸的关

9、系是在某一时期固定的,之后很难再被改变。所有的生物几乎使用着同样一套密码似乎支持这一假说,这也表明,所有生物起源自单一的共同祖先(Crick 1968)。这推测了演化事件的重要时间节点。立体化学假说韦斯(Carl Richard Woese)提出了立体化学假说(stereochemical hypothesis),认为氨基酸与它们相对应的密码子有选择性的化学结合力,即遗传密码的起源和分配与RNA和氨基酸之间的直接化学作用密切相关,或者说,密码子的立体化学本质取决于氨基酸与相应的密码子之间物理和化学性质的互补性(Woese et al. 1966)。这可能是密码子起源的一个重要化学机制。Poly

10、ansky等(2013)通过实验和计算发现,mRNAs中不同核酸碱基的密度分布,非常类似于它们所编码的蛋白质中这些相同核酸碱基的氨基酸亲电子密度分布,遗传密码进行了高度最佳化,以最大化这种匹配。共进化假说王子晖(J. Tze-Fei Wong)提出了共进化假说(co-evolution hypothesis),认为密码子系统有原始氨基酸形成的前生物代谢途径的印迹,因此可以从氨基酸代谢途径发现密码子的演变过程,即密码子的进化与氨基酸生物合成的进化是并列的。该假说认为,氨基酸和相应编码的忠实性反映了氨基酸生物合成路径的相似性,并非物理化学性质的相似性(Wong 1975)。这推测了密码子起源的一种

11、可能路线,但是,从简单的原料合成各种氨基酸可能是发生在前生命演化末期的事情了。ATP中心假说谢平(2016)提出了ATP中心假说(ATP-centric hypothesis),认为遗传密码子是生化系统的一部分,因此,必须与生化系统的演化相关联,而生化系统的核心是能量载体ATP(各种生化循环,如卡尔文循环、糖酵解和三羧酸循环等,均与ATP相耦联),它是光能转化成化学能的唯一终产物,它可以衍生出其它核苷酸,这些核苷酸可以自身缩合成核酸。ATP可活化氨基酸,为多肽链的缩合提供了能量基础。因此,只有ATP才能建立起核酸和蛋白质之间的联系。综合进化假说Knight等(1999)提出了综合性假说,认为遗

12、传密码是由选择(selection)、历史(history)和化学(chemistry)三个因素在不同阶段起作用的。该假说认为,在遗传密码起源初期,可能主要是氨基酸和密码子之间的直接相互作用来决定氨基酸的编码;在新氨基酸的引入和密码子扩展阶段,共进化作用可能占据主导地位;而随着tRNA的进化和蛋白质的功能增加,逐渐去除了氨基酸和密码子的直接相互作用,密码子在不同尺度上的交换在某些程度上允许通过密码子的重新分配进行优化。其它假说1981年艾根提出了试管选择(in vitro selection)假说,1989年英国化学家奥格尔(Leslie Eleazer Orgel)提出了解码(decodin

13、g)机理起源假说,1988年比利时细胞生物学和生物化学家杜维(Christian de Duve,1974年获诺贝尔生理学或医学奖)提出了第二遗传密码(second genetic code)假说。英国巴斯大学的Wu等(2005)推测,三联体密码从两种类型的双联体密码逐渐进化而来,这两种双联体密码是按照三联体密码中固定的碱基位置来划分的,包括前缀密码子(Prefix codons)和后缀密码子(Suffix codons)。不过,也有人推测三联体密码子是从更长的密码子(如四联体密码子quadruplet codons)演变而来,因为长的密码子具有更多的编码冗余从而能抵御更大的突变压力(Bara

14、nov et al. 2009)。2007年中国科学院北京基因组研究所的肖景发和于军(2007年)提出了遗传密码的分步进化假说(stepwise evolution hypothesis),认为最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码,共编码7个多元化的氨基酸,随着生命复杂性的增加,鸟嘌呤G从主载操作信号的功能中释放出来,再伴随着C的引入,使遗传密码逐步扩展到12,15和20个氨基酸(肖景发和于军2009)。厦门大学的有机化学家赵玉芬(1994-1996年)也曾提出核酸与蛋白共同起源的观点,认为“磷是生命化学过程的调控中心”,因为磷酰化氨基酸能同时生成核酸及蛋白,又能生成LB膜及脂

15、质体。她认为,原始地球火山频发,焦磷酸盐、焦磷酸脂类化合物容易在地表积累,其POP键含有的能量,通过与氨基酸形成PN键,最终转移到肽键和核苷酸的磷酸二酯键中。她推测,磷酰化氨基酸在同时生成蛋白质和DNA/RNA的过程中,蛋白质与DNA/RNA可以通过磷酰基的调控作用相互影响,从而产生了原始密码子的雏形,并进一步进化到遗传密码的现代形式。但问题是,磷酰化氨基酸为何要导演核酸和蛋白质的共进化故事呢?也有将关于密码子起源的各种学说分为这样四类的:化学原理(Chemical principles)、生物合成扩展(Biosynthetic expansion)、自然选择(Natural selectio

16、n)和信息通道(Information channels)。根据信息理论研究中的率失真模型(rate-distortion models)推测,遗传密码子的起源取决于三种相互冲突的进化力量的平衡:对多样的氨基酸的需求、抵御复制错误以及资源最小成本化(Freeland et al. 2003,Sella and Ardell 2006,Tlusty 2008,)。化学信息:生物在某些特定条件下,或某个生长发育阶段,分解出某些特殊的化学物质。这些分泌物不是对生物提供营养,而是在生物的个体或种群之间起着某种信息的传递作用,即构成了化学信息。如蚂蚁可以通过自己的分泌物留下化学痕迹,以便后面的蚂蚁跟随;

17、猫、狗可以通过排尿标记自己的行踪及活动区域。化学信息对集群活动的整体性和集群整体性的维持具有极重要的作用。二、生物信息学生物信息学(Bioinformatics)是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。它通过综合利用生物学,计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。简介生物信息学(Bioinformatics) 1 是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的

18、核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。定义生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科(Bioinformatics is a new subject of genetic data collectionanalysis and dissemination to the research community)。(林华安,Dr. Hwa A. Lim,1987)二.生物信息学特指数据库类的工作,包括持久稳固的在一个稳定的地方提供对数据的支持(B

19、ioinformatics refers to databaxxxxse-like activitiesinvolving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time)。(林华安,Dr. Hwa A. Lim,1994)三.生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。(Luscombe

20、2001)具体而言,生物信息学作为一门新的学科领域,它是把基因组DNA序列信息分析作为源头,在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学,蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看,生物信息学应包括这3个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据新工具。生物信息学是一门利用计算机技术研究生物系统之规律的学科。生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具

21、是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物

22、学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向:基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学,1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议,生物信息学发展到了计算生物学、计算系统生物学的时代。姑且不去引用生物信息学冗长的定义,以通俗的语言阐述其核心应用即是:随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,已达

23、到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取,是生物信息学产业发展的初级阶段,这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。生物信息学产业的高级阶段体现于此,人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。经历阶段前基因组时代(20世纪90年代前) 这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。基因组时代(20世纪90年代后至2001年) 这一

24、阶段主要是大规模的基因组测序,基因识别和发现,网络数据库系统地建立和交互界面工具的开发等。后基因组时代(2001至今) 随着人类基因组测序工作的完成,各种模式生物基因组测序的完成,生物科学的发展已经进入了后基因组时代,基因组学研究的重心由基因组的结构向基因的功能转移。这种转移的一个重要标志是产生了功能基因组学,而基因组学的前期工作相应地被称为结构基因组学。发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:遗传因子是以生物成分存在,1871年M

25、iescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等。与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋)。DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双

26、股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central d

27、ogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然。2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋。毫无疑问,我们正从一个积累数据向解释数据的时代转变,

28、数据量的巨大积累往往蕴含着潜在突破性发现的可能,生物信息学正是从这一前提产生的交叉学科。粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释。基因组信息学的关键是读懂基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表

29、达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律。它的研究目标是揭示基因组信息结构的复杂性及遗传语言的根本规律,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点。序列比对序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据(probe dat

30、a)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列,比较两个或多个序列的相似性,在数据库中搜索相关序列和子序列,寻找核苷酸(nucleotides)的连续产生模式,找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等。两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效。因此,启发

31、式方法的引入势在必然,著名的BLAST和FASTA算法及相应的改进方法均是从此前提出发的。蛋白质比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链,长度从50到10003000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为,蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业

32、上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模(homology modeling)和指认(Threading)方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构。然而,蛋白结构预测研究现状还远远不能满足实际需要。基因识别分析基因识别的基本问题是给定基因组

33、序列后,正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制。显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中。分析非编码区DNA序列没有一般性的指导方法。在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的35%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading frxxxxames),启动子(promoter

34、)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。分子进化分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的。早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据。较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时,一般须处理三种情况:Ortho

35、logous:不同种族,相同功能的基因;Paralogous:相同种族,不同功能的基因;Xenologs:有机体间采用其他方式传递的基因,如被病毒注入的基因。这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列

36、的过程称为重叠群装配。从算法层次来看,序列的重叠群是一个NP-完全问题。遗传密码通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今。不同于这种冻结理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重

37、要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物。这一领域目的是发现新的基因药物,有着巨大的经济效益。生物系统随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Scheri

38、ng Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题

39、(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是系统建模主要困难。系统描述和建模方法也需要开创性的发展。技术方法生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的

40、时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学

41、,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。从发展不难看出,基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识。研究方法以数据(库)为核心1 数据库的建立2 生物学数据的检索3 生物学数据的处理4 生物学数据的利用:计算生物学机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究其原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织

42、理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,噪声模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法观测和假设面对高数据的体积,快速的数据获取率和客观分析的要求已经不能仅依赖于人的感知

43、来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.研究重心包括:1)观测和探索有趣的现象.ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear e

44、mxxxxbedding).2)生成假设和形式化模型来解释现象6.大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用黑箱操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.数学问题生物信息学

45、中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,就说明了要采用常规的均值方法不能将这两类分开,也表

46、明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢,我们不妨给出一般的描述:假定两个向量为A,B,其中,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:依据上式可以得到满足正交不变运动群

47、的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足时等价于,因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.统计学习生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看

48、,引入某个正则项来改善性能是必然的7.以下对基于这一思想产生的统计学习理论,Kolmogorov复杂性98和BIC(Bayesian Information Criterion)109及其存在的问题给出简要介绍.支持向量机(SVM)是较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最小间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 教案示例

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁