《计算机在生物学中的应用课件.ppt》由会员分享,可在线阅读,更多相关《计算机在生物学中的应用课件.ppt(183页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Excel计算和作图计算和作图;序列数据应用于试验室技术改良序列数据应用于试验室技术改良(8););第一章第一章、生物信息数据库生物信息数据库(12)第二章第二章、数据库检索数据库检索(25)第三章第三章、序列比对序列比对(30)一一 序列比对策略序列比对策略(3131););););二二 算法算法(34);三三 序列双重比对序列双重比对(42);四四 多序列比对多序列比对(47)。)。第四章第四章 在系统发生分析中的应用在系统发生分析中的应用(51)第五章第五章、生物信息学在基因组构建中的应用;、生物信息学在基因组构建中的应用;一一 基因的识别和基因的识别和鉴定鉴定(62)二二 蛋白质功能的
2、预测蛋白质功能的预测(73);三三 蛋白质结构预蛋白质结构预测测(78);四四 基因组中非编码区的研究基因组中非编码区的研究(96);五五 人类基人类基因组多样性计划因组多样性计划(102)。第六章第六章、计算机在其他方面的应用计算机在其他方面的应用(107););药物开发药物开发(110)。)。第七章第七章、生物信息学在组学中的应用生物信息学在组学中的应用;一一 基因组学研究基因组学研究(119););二二 功能基因组研究功能基因组研究(128);三三 蛋白质组研究蛋白质组研究(137);四四 蛋白质的功能确定蛋白质的功能确定(140););五五 代谢组代谢组(142););六六 网络研究网
3、络研究(145););七七 细胞计划细胞计划(157)。第八章第八章、生物医学信息资源生物医学信息资源(160)计算机在生命科学和生物技术计算机在生命科学和生物技术中的应用中的应用 计算机是生物研究的工具。为了了解计算计算机是生物研究的工具。为了了解计算机工具在生物研究中的应用,首先需要了解机工具在生物研究中的应用,首先需要了解生物研究的现状。生物研究的现状。l基因决定论基因决定论 由于由于DNA双螺旋结构的发现,基因决定论双螺旋结构的发现,基因决定论成为主要观点。人们尝试寻找决定生物功能成为主要观点。人们尝试寻找决定生物功能的基因,但是受到挫折。的基因,但是受到挫折。l一是由于美国能源部用一
4、是由于美国能源部用30多年研究多年研究“核辐射核辐射对人类基因突变作用对人类基因突变作用”,未取得实质性突破,未取得实质性突破进展,受害者已表现进展,受害者已表现 出明显的突变性状,但出明显的突变性状,但检测不出其基因突变与对照组存在显著性差检测不出其基因突变与对照组存在显著性差异。异。l二是美国于二是美国于1975年巨额投资启动的年巨额投资启动的“肿瘤十肿瘤十年计划年计划”基本以失败告终。基本以失败告终。R.Dulbecco 于于1986在在science上发表癌症上发表癌症研究的转折点:测序人类基因组,认为要研究的转折点:测序人类基因组,认为要彻底阐明癌症的发生、演进、侵袭和转移的彻底阐明
5、癌症的发生、演进、侵袭和转移的机制,必须对人体细胞的基因组进行全测序。机制,必须对人体细胞的基因组进行全测序。美国政府与美国政府与1990年正式启动年正式启动HGP。l基因组学基因组学 由于基因组是物种所有遗传信息的储藏库,由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因从根本上决定着物种个体的发育和生理,因此,在研究遗传、发育、进化、功能调控等此,在研究遗传、发育、进化、功能调控等基本生物学问题方面,基本生物学问题方面,基因组学基因组学关注的是基关注的是基因组整体的作用,而不是个别基因。因组整体的作用,而不是个别基因。功能基功能基因组学因组学(后基因组学)的中心任
6、务是通过了(后基因组学)的中心任务是通过了解基因组表达与环境的关系,以及其在基本解基因组表达与环境的关系,以及其在基本生物学方面和人类健康和疾病相关的生物医生物学方面和人类健康和疾病相关的生物医学问题方面的意义。学问题方面的意义。l后基因组学后基因组学l转录组学转录组学:关注:关注mRNA的组成和细胞功能的的组成和细胞功能的关系。关系。l蛋白质组学蛋白质组学:其中心任务是通过比较不同时间:其中心任务是通过比较不同时间或不同细胞的蛋白质组成,以揭示蛋白质变化或不同细胞的蛋白质组成,以揭示蛋白质变化的生物学意义。的生物学意义。l结构基因组学结构基因组学:了解蛋白质三维结构与蛋白质:了解蛋白质三维结
7、构与蛋白质功能的关系。功能的关系。l蛋白质相互作用网络蛋白质相互作用网络:了解蛋白质相互作用。:了解蛋白质相互作用。l代谢组学代谢组学:其中心任务是通过比较不同时间或:其中心任务是通过比较不同时间或不同细胞的小分子组成,揭示生物学意义。不同细胞的小分子组成,揭示生物学意义。l系统生物学系统生物学:以一个理论模式为基础,与基因:以一个理论模式为基础,与基因组学和蛋白质组学的表现进行比较,判断生物组学和蛋白质组学的表现进行比较,判断生物在分子水平上复杂的相互作用。在分子水平上复杂的相互作用。生物学发展的展望生物学发展的展望W.Gilbert(80年诺年诺贝尔化学奖)贝尔化学奖)91年专门在年专门在
8、“nature”撰文讨论撰文讨论生物学研究形式的变化:生物学研究形式的变化:正在兴起的新的范式在于,所有的正在兴起的新的范式在于,所有的基因基因将被知晓(在可用电子方式从数据库里读取将被知晓(在可用电子方式从数据库里读取的意义上),今后生物学研究项目的起点将的意义上),今后生物学研究项目的起点将是理论的。一位科学家将从理论猜测开始,是理论的。一位科学家将从理论猜测开始,然后才转向实验去继续或检验该假设。然后才转向实验去继续或检验该假设。新的范式:从机理出发,推论在一定条件新的范式:从机理出发,推论在一定条件下细胞的表现,再用实验去验证。下细胞的表现,再用实验去验证。现代,生物学已分为两个部分:
9、现代,生物学已分为两个部分:l试验生物学:传统的、依靠实践发现事物的性试验生物学:传统的、依靠实践发现事物的性质和活动规律的学科。质和活动规律的学科。研究对象是组成生物研究对象是组成生物体的元件。研究手段是物质分离和检测技术。体的元件。研究手段是物质分离和检测技术。当前主要在于建立高通量检测技术。当前主要在于建立高通量检测技术。l理论生物学:根据事物已知性质和活动规律推理论生物学:根据事物已知性质和活动规律推导其可能性质和活动规律的学科。导其可能性质和活动规律的学科。研究对象研究对象是生物体整体。研究手段是逻辑分析和推导。是生物体整体。研究手段是逻辑分析和推导。l计算机作为生物研究的工具,在前
10、期生物学研计算机作为生物研究的工具,在前期生物学研究工作中作为计算和存储工具起辅助作用。在究工作中作为计算和存储工具起辅助作用。在当前生物学研究工作中作为数据处理工具。当前生物学研究工作中作为数据处理工具。数据处理是高通量检测技术和理论生物学数据处理是高通量检测技术和理论生物学研究的主要方法。产生研究的主要方法。产生生物信息学生物信息学。一一一一 Excel Excel的功能的功能的功能的功能:表格处理;图表功能;数据库管理功能。表格处理;图表功能;数据库管理功能。1 图表制作图表制作建立图表,激活和修改图表项。建立图表,激活和修改图表项。2 计算计算引用:相对引用(引用:相对引用(=(a1-
11、b1)/c1*d1)绝对引用(绝对引用($a$1-$b$1)/$c$1*$d$1)函数:函数:chitest(检验相关性);(检验相关性);slope(斜率);(斜率);intercept(截距)。(截距)。二二二二 化学做图:化学做图:化学做图:化学做图:ISIS DRAW2的应用的应用l下载软件:下载软件:www.bio- 数据分析技术的发展:数据分析技术的发展:1962年年Zuckerkandl和和Pauling将序列变异分析与其演化关系联系起来将序列变异分析与其演化关系联系起来,开辟了分子演化的研究领域;,开辟了分子演化的研究领域;1964年年Davies开创了蛋白质结构预测研究;开创
12、了蛋白质结构预测研究;1970年年Needoeman和和Wunsch发表了两序列比较算法;发表了两序列比较算法;1974年年Ratner运用理论方法对分子遗传调控系运用理论方法对分子遗传调控系统进行分析;统进行分析;1975年年Pipas和和McMahon用计算用计算机技术预测二级结构。机技术预测二级结构。1976年后生物学数据分年后生物学数据分析技术大量涌现。析技术大量涌现。2 人类基因组计划产生了大量基因信息(图人类基因组计划产生了大量基因信息(图0)生物信息学(生物信息学(bioinformatics):利用计算机):利用计算机技术并参照现代信息技术,对生物信息进行储技术并参照现代信息技
13、术,对生物信息进行储存、检索和综合分析。及一是对海量数据的收存、检索和综合分析。及一是对海量数据的收集、整理与服务。二是使用数据。集、整理与服务。二是使用数据。生物信息学是把生物信息学是把DNA序列分析作为源头,找序列分析作为源头,找到基因组序列中代表蛋白质和到基因组序列中代表蛋白质和mRNA的编码区;的编码区;同时,阐明基因组中大量存在的非编码区的信同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在息实质,破译隐藏在DNA序列中的遗传语言规序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数息释放及
14、其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。据,从而认识代谢、发育、分化、进化的规律。l生物信息学基本方法:生物信息学基本方法:1 数据库信息检索;数据库信息检索;2 用序列比对(用序列比对(alignment,对位排列)方法进,对位排列)方法进行数据库序列检索;行数据库序列检索;3 网络分析,计算机模拟。网络分析,计算机模拟。问题:你对生物信息学的认识问题:你对生物信息学的认识第一章第一章 生物信息数据库生物信息数据库 生物信息数据库分类保存各种生物信息,生物信息数据库分类保存各种生物信息,为大家提供计算机分析的基本材料。例文献为大家提供计算机分析的基本材料。例
15、文献数据库、序列数据库。数据库、序列数据库。一一 信息中心信息中心:维护和提供数据库服务。:维护和提供数据库服务。主要工作:在分子水平上应用数学和计算主要工作:在分子水平上应用数学和计算科学的方法研究基础生物、医学问题;为科科学的方法研究基础生物、医学问题;为科学和医学界开发、维护和分享一系列的生物学和医学界开发、维护和分享一系列的生物信息学数据库;开发和促进生物信息学数据信息学数据库;开发和促进生物信息学数据库、数据存储、交换以及生物学命名规则的库、数据存储、交换以及生物学命名规则的标准化。标准化。重要的生物信息中心:重要的生物信息中心:1 美国国家生物技术信息中心(美国国家生物技术信息中心
16、(NCBI)www.ncbi.nlm.nih.gov/(管理着包括(管理着包括GenBank在内的一批数据库)在内的一批数据库)2 欧洲生物信息学研究所(欧洲生物信息学研究所(EBI)www.ebi.ac.uk/(主网页,可链接到其他主网页,可链接到其他项目项目)www2.ebi.ac.uk(各种数据库和分析工具各种数据库和分析工具)www3.ebi.ac.uk (公众服务网页公众服务网页)3 日本核酸数据库(日本核酸数据库(DDBJ):):www.ddbj.nig.ac.jp/4 北京大学生物信息中心北京大学生物信息中心(CBI或或PKUCBI,是,是EMBnet的中国节点,也是的中国节点,
17、也是APBionet的中国的中国节点)节点) 序列数据库序列数据库1 一级数据库:记录实验结果和初步的解释一级数据库:记录实验结果和初步的解释2 二级数据库:从一级数据库提取的信息构建二级数据库:从一级数据库提取的信息构建的数据库的数据库l 一级核酸序列数据库:一级核酸序列数据库:(A)GenBank:www.ncbi.nlm.nih.gov/genband/(B)EMBL(欧洲分子生物学实验室的(欧洲分子生物学实验室的DNA和和RNA数据库):数据库):www.ebi.ac.uk/(C)DDBJ(日本核酸数据库日本核酸数据库):www.ddbj.nig.ac.jp/翻译编码的翻译编码的DNA
18、序列(根据序列(根据ORF,数据库中,数据库中搜索)搜索)(D)GeneBuilder:r.it/webgene/genebuilder.html(E)上海生命科学中心:)上海生命科学中心: 一级蛋白质序列数据库:一级蛋白质序列数据库:(A)PIR-PSD:序列来自于:序列来自于GenBank/EMBL/DDBJ的编码序列的翻译、文献中的和用户的编码序列的翻译、文献中的和用户 直接提交的序列。目前最大的公共蛋白质序列直接提交的序列。目前最大的公共蛋白质序列数据库。衍生出数据库。衍生出iProClass(描述蛋白质家族(描述蛋白质家族的关系及结构的关系及结构/功能特征),还有功能特征),还有PI
19、R-NREF,PIR-ASDB,IESA,PIR-NRL3D,RESID,PIR-ALN等其他辅助数据库。等其他辅助数据库。pir.georgetown.edu/pirwww/(B)SWISS-PROT/TrEMBL:经注释的蛋白:经注释的蛋白质数据库。每个条目包括蛋白质序列、引用文质数据库。每个条目包括蛋白质序列、引用文献、分类学信息、注释等。注释包括蛋白质功献、分类学信息、注释等。注释包括蛋白质功能、转录后修饰位点、特殊位点和区域、二级能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的形式性、序列结构、四级结构、与其他序列的形式性、序列残缺与疾病的关系、序列变异体等信息。
20、残缺与疾病的关系、序列变异体等信息。www.expasy.org/swissprot/l 二级核酸序列数据库二级核酸序列数据库CUTG:密码子使用频度表:密码子使用频度表 www.dna.affrc.go.jp/nakamura/CUTG.html EPD:真核生物启动子数据库:真核生物启动子数据库 www.epd.isb-sib.ch/OOTFD:转录因子和基因表达数据库:转录因子和基因表达数据库 www.ifti.org/RepBase:真核生物:真核生物DNA中重复序列数据库中重复序列数据库 www.firinst.orf/server/repbase.html MPDB:外显子和内含子
21、数据库:外显子和内含子数据库 www.biotech.ist.unige.it/interlab/mpdb.html 三三 专门研究的数据库专门研究的数据库HGMD(可用于预测基因疾病可用于预测基因疾病):www.uwcm.ac.uk/medical_genetics/research/hgmd/PDD(人类体液中蛋白质与疾病关系人类体液中蛋白质与疾病关系):www-lmmb.ncifcrf.gov/pdd/HIV(爱滋病分子免疫学爱滋病分子免疫学):hiv-web.lanl.gov/immunology/immuno-main.html WIT(重构代谢重构代谢):wit.ics.anl.g
22、ov/wit2/CSNDB(细胞信号网络细胞信号网络):geo.nihs.go.jp/csndb/AgDB(农业数据库和信息资源总清单农业数据库和信息资源总清单):www.agnic.org/agdb/PharmGKB(药物遗传学和药物基因组学药物遗传学和药物基因组学):www.pharmgkb.org/GBIF(全球生物多样性信息机构全球生物多样性信息机构):www.gbif.org/linkfram.htm 四四 模式生物数据库模式生物数据库l模式生物:模式生物:人(人(Homo sapiens);小鼠(小鼠(Mus musculus););大肠杆菌(大肠杆菌(Escherichia co
23、li););酿酒酵母(酿酒酵母(Saccharomyces cerevisiae););果蝇(果蝇(Drosophila melanogaster):遗传;):遗传;秀丽线虫(秀丽线虫(Caenorhabitedis elegans):只有约):只有约千个细胞的动物,研究千个细胞的动物,研究RNAi的模式生物;的模式生物;海胆(海胆(Strongylocentrotus purpuratus):研究):研究发育和基因调控的模式生物;发育和基因调控的模式生物;拟南芥(拟南芥(Arabidopsis thaliana):生活周期):生活周期6周周的十字花科植物,研究植物的模式生物。的十字花科植物,
24、研究植物的模式生物。1 各种生物信息中心各种生物信息中心2 大肠杆菌大肠杆菌K12完全基因组序列:完全基因组序列:www.genetics.wisc.edu/pub/3 MYGD(酵母基因组酵母基因组蛋白质和同源关系数据库蛋白质和同源关系数据库)www.mips.biochem.mpg.de/proj/yeast/4 BDGP(果蝇基因组中心果蝇基因组中心):www.fruitfly.org/五五 其他数据库其他数据库1 PubMed:生物医学文献数据库:生物医学文献数据库2 OMIM(Online Mendelian inheritance in Man):保存所有已知的人类生物学和疾病信:
25、保存所有已知的人类生物学和疾病信息的数据库息的数据库3 GeneCard:www.genecard.org/保存注释过(定性)基因的数据库保存注释过(定性)基因的数据库4 LocusLink:同:同3六六 数据库目录数据库目录1 核酸研究核酸研究(每年第一期是数据库专集每年第一期是数据库专集):www.nar.oupjournals.org/2 NAR(核酸研究数据库总汇核酸研究数据库总汇):www3.oup.co.uk/nar/databse/3 DBcat(法国生物信息中心法国生物信息中心):www.infobiogen.fr/services/dbcat/4 nature(介绍基因组测序
26、进展的新闻介绍基因组测序进展的新闻):www.nature/genomicsl问题:生物信息数据库的作用问题:生物信息数据库的作用第二章第二章 数据库检索数据库检索一一 序列数据库检索序列数据库检索1 序列检索工具:序列检索工具:Entrez:Batch Entrez(批处理批处理),NCBI提提供的集成检索工具。可以通过一次检索而查供的集成检索工具。可以通过一次检索而查询到多个子系统中的所有信息。询到多个子系统中的所有信息。主页面有两个窗口主页面有两个窗口1)下拉式菜单:选择下拉式菜单:选择14个数据库个数据库2)搜索:关键词、作者、杂志、名、物种、检搜索:关键词、作者、杂志、名、物种、检索
27、号等。索号等。3)查询结果右上角的查询结果右上角的link表示与其他数据库的表示与其他数据库的超级连接。超级连接。SRS:Sequence Retrieval System,EBI的检索的检索工具。工具。有三种查询方式:有三种查询方式:1)Quick Sequence:快速查询。选择数据库查快速查询。选择数据库查关键词。关键词。2)Standard:标准查询。由用户限定查询条件。标准查询。由用户限定查询条件。3)Extended:扩展查询。可以将输入关键词的扩展查询。可以将输入关键词的查寻范围限定在物种、说明、作者、文献等范查寻范围限定在物种、说明、作者、文献等范围内,也可以先定日期和序列长度
28、。围内,也可以先定日期和序列长度。二二 序列文件的格式序列文件的格式1 GBFF格式(格式(GenBank flatfile,GenBank平面平面文件)。文件)。(图(图 1,图,图2,图,图3)BACs(bacterial artificial chromosomes)细菌人)细菌人工染色体:携带人类基因工染色体:携带人类基因DNA片段的细菌载体片段的细菌载体YACs(yeast artificial chromosomes)酵母人工)酵母人工染色体:携带人类基因染色体:携带人类基因DNA片段的酵母载体片段的酵母载体STS(sequence tagged site)序列标签位点:染)序列标
29、签位点:染色体上独特的色体上独特的DNA序列短片段序列短片段ESTs(expressed sequence tags)表达序列标签:)表达序列标签:cDNA 5端的短片段端的短片段2 FASTA格式格式:第一行:第一行:打头的文字说明,主要为标记序列打头的文字说明,主要为标记序列用。用。第二行开始是序列,每行不超过第二行开始是序列,每行不超过80个字母(核个字母(核酸大小写均可,氨基酸一般大写)。酸大小写均可,氨基酸一般大写)。由于由于FASTA没有特殊的结束标志,建议最后留没有特殊的结束标志,建议最后留一空行。一空行。gi|1293613|gb|U49845|SCU49845 Sacchar
30、omyces cerevisiae TCP-beta gene,partial cds;and Axl2p(AXL2)and Rev7p(REV7)genes,complete cdsgatcct 3 EPD格式和格式和PDB数据格式:数据格式:(图(图4)问题:自己设计一个检索路径。问题:自己设计一个检索路径。第三章第三章 序列比对序列比对 用户提交一个核酸或蛋白质序列,同指定用户提交一个核酸或蛋白质序列,同指定数据库的全部序列做比较,寻找一个得分最数据库的全部序列做比较,寻找一个得分最高(或代价最小)的比对。通过相似序列的高(或代价最小)的比对。通过相似序列的种类和功能,确定其种类和功能。
31、种类和功能,确定其种类和功能。l序列比对的基本思想基于一条分子生物学规序列比对的基本思想基于一条分子生物学规则:当两个分子享有相似的序列时,由于进则:当两个分子享有相似的序列时,由于进化关系和物理化学限制,它们将很有可能具化关系和物理化学限制,它们将很有可能具有相似的三维结构和生物学功能。有相似的三维结构和生物学功能。一一 序列比对策略:序列比对策略:分两种(图分两种(图5)1 最简单的操作:提交一个核酸或蛋白质序最简单的操作:提交一个核酸或蛋白质序列,同一级数据库的序列做比较,人工判列,同一级数据库的序列做比较,人工判断同源性。基本原则:寻找一个最佳对齐断同源性。基本原则:寻找一个最佳对齐方
32、式。方式。2 基于知识的预测:将已知样本抽象成代表基于知识的预测:将已知样本抽象成代表序列序列-结构或序列结构或序列-功能相关性的经验规则,功能相关性的经验规则,由其判断同源性(如由其判断同源性(如motif库)。此方法的库)。此方法的首要任务是找出可以扩展到结构和功能性首要任务是找出可以扩展到结构和功能性质的序列特征。质的序列特征。l两条序列相似程度的量化表示:相似度(表示两条序列相似程度的量化表示:相似度(表示相似程度的函数);距离(表示不相似程度相似程度的函数);距离(表示不相似程度的函数,有海明距离和编辑距离)的函数,有海明距离和编辑距离)l代价(代价(cost)或权重()或权重(we
33、ight):):w(a,a)=0 w(a,b)=1(a w(a,-)=w(-,b)=1 l得分(得分(score):):p(a,a)=1 p(a,b)=0(ab)p(a,-)=w(-,b)=-1 例例1:两条字符串:两条字符串AIMS和和AMOS的最佳对齐方式的最佳对齐方式 A I M S A MOS 例例2:两个氨基酸序列:两个氨基酸序列ARRSG和和ARKTVG。ARRS G ARKTVG二二 算法:算法:1 点阵分析:用两条序列为点阵分析:用两条序列为X和和Y轴构建二维矩阵,用轴构建二维矩阵,用点表现两条序列的相似部分。点所包含的片段长度点表现两条序列的相似部分。点所包含的片段长度叫叫窗
34、口窗口,匹配长度叫,匹配长度叫相似度阈值相似度阈值。2 动态规划算法:最优对位排列方法动态规划算法:最优对位排列方法 对两个序列对两个序列a=a1a2an和和b=b1b2bn,当,当S=S(a1a2ai,b1b2bi)时有:时有:Sij=maxSi-1,j-1+s(ai,bj),max(Si-x,j+Wx),max(Si,j-y+Wy)Sij:ij位置的分值;位置的分值;s(ai,bj):Sij的打分分值;的打分分值;Wx:长度为:长度为x的空位的空位(间隔间隔)罚分。罚分。l蛋白质打分矩阵:蛋白质打分矩阵:PAM1矩阵矩阵:根据:根据71组相似性在组相似性在85%以上的蛋以上的蛋白质序列中的
35、白质序列中的1572种变化来估计氨基酸在蛋白种变化来估计氨基酸在蛋白质进化中被替换的预期频率。设为表现每质进化中被替换的预期频率。设为表现每108年年一个突变的替换频率(假定每一个特定位点的一个突变的替换频率(假定每一个特定位点的每一个变化都是独立的)。每一个变化都是独立的)。不同的不同的PAM 矩阵可应用于不同相似性水平矩阵可应用于不同相似性水平序列比对。例:序列比对。例:PAM 250、PAM120、PAM80和和PAM60分别用于分别用于1427%、40%、50%、和、和60%相似性的序列比对。相似性的序列比对。PAM250由由PAM1自自乘乘250次产生,代表次产生,代表25亿年中亿年
36、中250%的预期变化的预期变化水平。水平。(PAM250的矩阵,图的矩阵,图7)打分矩阵:打分矩阵:BLOSUM矩阵矩阵:在有:在有500个蛋白质家族的数据个蛋白质家族的数据库(库(PROSITE)中针对)中针对2000个保守氨基酸模式个保守氨基酸模式进行替换频率鉴定。进行替换频率鉴定。具有具有60%同一性的模式聚在一起构造一个矩同一性的模式聚在一起构造一个矩阵就是阵就是BLOSUM60,依此类推。,依此类推。PAM模型可用于寻找蛋白质的进化起源,模型可用于寻找蛋白质的进化起源,BLOSUM模型可用于发现蛋白质的保守域。模型可用于发现蛋白质的保守域。l核酸打分矩阵:核酸打分矩阵:PAM矩阵矩阵
37、 单位矩阵:相同碱基为单位矩阵:相同碱基为1,不同为,不同为0。转换转换-颠换矩阵:相同碱基为正颠换矩阵:相同碱基为正1分,转换为分,转换为-1分,颠换为分,颠换为-5分。分。在不知道序列间的相似性大小时,需用在不知道序列间的相似性大小时,需用H(相对平均信息量)判断选择合适的矩阵。一(相对平均信息量)判断选择合适的矩阵。一般来说,若其他因素相同,般来说,若其他因素相同,H值高的合适。值高的合适。20 i H=qij*Sij i=1 j=1 q:每个氨基酸对出现的频率,:每个氨基酸对出现的频率,S:每个氨基酸:每个氨基酸对的分值(以对的分值(以log2为单位,称比特为单位,称比特bit)。)。
38、l空位罚分:空位罚分:wx=g+rx 或或 wx=g+r(x 1)。g:空位窗,单个空位的罚分;空位窗,单个空位的罚分;r:空位扩展罚空位扩展罚分,多个空位的追加罚分;分,多个空位的追加罚分;x:空位长度。空位长度。A 全局比对:全局比对是两条序列从头到尾的全局比对:全局比对是两条序列从头到尾的比对,有比对,有Needleman-Wunsch算法。算法。第一步:用两条序列为第一步:用两条序列为X和和Y轴构建二维轴构建二维矩阵,矩阵中只有元素矩阵,矩阵中只有元素S0,0=0,从,从S0,0开始,开始,对每一个位点赋值。赋值由出发点的分值对每一个位点赋值。赋值由出发点的分值+打分(罚分)组成。在所
39、有路径中选分最高打分(罚分)组成。在所有路径中选分最高的。的。第二步:当矩阵中所有位点的赋值完成后,第二步:当矩阵中所有位点的赋值完成后,从最高分值位点回溯,找出的分值最高的路从最高分值位点回溯,找出的分值最高的路径就是最优化的序列对位排列方式。(图径就是最优化的序列对位排列方式。(图6)B 局部比对:是一条序列的片断与一条完整序列局部比对:是一条序列的片断与一条完整序列之间的比对,有之间的比对,有Smith-Waterman算法。算法。对于矩阵中所有对于矩阵中所有j,令,令D0,j=0,对于矩阵中所,对于矩阵中所有有i,令,令D0,i=0,就可能实现两条序列的局部比,就可能实现两条序列的局部
40、比对。这对于在由多个区域组成的序列中发现多对。这对于在由多个区域组成的序列中发现多个匹配有用。个匹配有用。C 高分值片段对(高分值片段对(HSP)判断:)判断:P(Sx)=1-exp(-Kmne-x);X:片段长度。:片段长度。P(Sx)是最大片段的分大于是最大片段的分大于X的概率。的概率。l显著性评价:显著性评价:E(S)=log(Kmn)/E:期望分值:期望分值(序列最长匹配的期望值序列最长匹配的期望值);K:错配数;错配数;m和和n:序列长度;:序列长度;=loge(1/p)。3 散列算法:不是比较两个序列中单个的残基,散列算法:不是比较两个序列中单个的残基,而是搜索匹配序列模式或而是搜
41、索匹配序列模式或k-串。串。在该方法中,需要为每个序列建立一个查询在该方法中,需要为每个序列建立一个查询表来标明每个长度为表来标明每个长度为k的单词的单词(k-串串)的位置。的位置。每个单词在两个序列中的相对位置可用第二个每个单词在两个序列中的相对位置可用第二个序列中的位置减去第一个得到。序列中的位置减去第一个得到。k-串长度由用串长度由用户指定。户指定。例:在二个序列中查找长度为例:在二个序列中查找长度为3的的k-串串位置位置 1 2 3 4 5 6 7 8 9 10 11序列序列1 n c s p t a 序列序列2 a c s p r k Position in offset 序列序列1
42、 序列序列2 序列序列2-序列序列1 a 6 6 0 c 2 7 5 k -11 n 1 -p 4 9 5 r -10 s 3 8 5 t 5 -快速发现一个可能的对位排列快速发现一个可能的对位排列序列序列1 n c s p t a序列序列2 a c s p t a三三 序列搜寻工具及其应用:序列搜寻工具及其应用:1 BLAST(Basic Local Alignment Search Tool):基本局域联配搜寻工具,将所查询的序列打断基本局域联配搜寻工具,将所查询的序列打断成为许多小序列片段(叫做字成为许多小序列片段(叫做字“W”),然后),然后用小序列片段逐步与数据库序列进行无空隙比用小
43、序列片段逐步与数据库序列进行无空隙比对。挑出分值大于阈值对。挑出分值大于阈值T的所有相似片段。对的所有相似片段。对目标序列和挑出的数据库序列进行无空隙局部目标序列和挑出的数据库序列进行无空隙局部比对。从字开始向两边延伸。用统计置信度检比对。从字开始向两边延伸。用统计置信度检验找到验找到HSP的组合。的组合。E-value(expect value):E=mn2-S m:目标序列的有效长度:目标序列的有效长度 n:数据库的有效长度(总碱基数):数据库的有效长度(总碱基数)S:标准比值(:标准比值(bit score)。)。:前期加工分值:前期加工分值 R-mnK S=ln2 和和K是正规化参数是
44、正规化参数 R:前期加工分值(:前期加工分值(raw score)R=aI+bX+cO+dGa:对每个完全匹配的加分,:对每个完全匹配的加分,I:完全匹配的个数:完全匹配的个数b:对每个错配的加分,:对每个错配的加分,X:错配的核苷酸数:错配的核苷酸数c:每开发一个:每开发一个gap的罚分,的罚分,O:gap的数目的数目d:gap中每个中每个“-”的罚分,的罚分,G:总的:总的“-”的的数目数目2 FASTA:对角线方法,原理基于散列算法:对角线方法,原理基于散列算法3 比对步骤:比对步骤:l比对基因:选择比对基因:选择megaBLAST、数据库,选择滤、数据库,选择滤过程序,如滤过低复杂度区
45、域(过程序,如滤过低复杂度区域(low complexity region,LCR)即重复元件;选择相似度)即重复元件;选择相似度/字长字长(SCORES/ALIGN)、空位设置、空位设置(GAPOPEN)、空位、空位扩展扩展(GAPTEXT)。设定。设定E的阈值(的阈值(S,缺省值为,缺省值为10)。)。l比对蛋白质:选择比对蛋白质:选择BLASTp、数据库,选择滤、数据库,选择滤过程序,设定过程序,设定E的阈值(缺省值为的阈值(缺省值为10)。)。l通常先用通常先用BLAST,结果不理想时再用,结果不理想时再用FASTA。l应先做蛋白质,再做核酸的序列比较。应先做蛋白质,再做核酸的序列比较
46、。序列比对结果:最佳匹配序列描述序列比对结果:最佳匹配序列描述所使用程序的描述、版本及相关信息所使用程序的描述、版本及相关信息,所要检索所要检索的序列长度的序列长度,所要检索的数据库信息,包括序列所要检索的数据库信息,包括序列记录数和字符数图形化的检索结果记录数和字符数图形化的检索结果 Score ESequences producing significant alignments:(bits)Valuegi|576838|gb|L37747.1|HUMLAM11 Homo 900 0.0gi|18854963|AC093532.2|Homo sapiens 862 e-167 Query:
47、616 gag gaannnnnnngtaata 675|Subjct:616gag gaat t t t t t t gtaata 675例:假肥大性肌营养不良症(例:假肥大性肌营养不良症(DMD)基因分析)基因分析 DMD是一种隐性遗传疾病(付图是一种隐性遗传疾病(付图10.2)。前)。前期实验工作证明该疾病是期实验工作证明该疾病是X和和6号染色体重组所号染色体重组所至。在重组部位找到引起至。在重组部位找到引起DMD的基因的基因/蛋白质蛋白质dystrophin。Dystrophin 在连接细胞骨架与外在连接细胞骨架与外骨架上起着重要作用。通过骨架上起着重要作用。通过BLAST2搜索,发搜
48、索,发现另一种蛋白现另一种蛋白utrophin,其与,其与dystrophin有一个有一个高度保守的序列高度保守的序列DVQKKTFTKW,该序列参,该序列参与形成与形成螺旋。通过免疫定位,显示螺旋。通过免疫定位,显示utrophin位位于骨骼肌中,并且聚集在神经于骨骼肌中,并且聚集在神经-肌肉接点处。肌肉接点处。到目前为止,还没有发现任何一种由到目前为止,还没有发现任何一种由utrophin引起的疾病,使引入引起的疾病,使引入utrophin作为治疗作为治疗DMD的的手段被考虑。(付图手段被考虑。(付图10.3-10.8)l多序列比对的目标是发现多条序列的共性。多序列比对的目标是发现多条序列
49、的共性。l应用于:应用于:(1)基因组测序)基因组测序;(2)提供相似区域的信息)提供相似区域的信息;(3)揭示结构和功能的关系)揭示结构和功能的关系;(4)预测相同或不同有机体的相似家族或同)预测相同或不同有机体的相似家族或同一类群的其他成员。一类群的其他成员。四四 多序列比对多序列比对1 全局比对全局比对(1)逐对加和()逐对加和(sum-of-pairs,SP)方法)方法 三条序列三条序列A、B、C,分别进行,分别进行A-B、A-C、B-C比对,产生三个二维距阵,寻找其中比对,产生三个二维距阵,寻找其中的最优排列。计算的最优排列。计算SP函数(一列中所有字符函数(一列中所有字符对得分之和
50、)对得分之和)k-1 k SP-score(c1,c2,c,ck k)=p(c)=p(ci i,c,cj j)i=1 j=i+1 i=1 j=i+1 (c是列中的字符;是列中的字符;k是序列个数;是序列个数;p p是相似性是相似性打分函数打分函数。)。)加和所有列的得分。该方法比对的序列不加和所有列的得分。该方法比对的序列不能太多。程序:能太多。程序:MSA(www.psc.edu/)(2)动态规划算法)动态规划算法 首先使用动态规划法获得多重排列,从最首先使用动态规划法获得多重排列,从最相关序列开始,逐步叠加相关性小的序列。相关序列开始,逐步叠加相关性小的序列。程序:程序:CLUSTALW(