生物信息学复习总结.docx

上传人:C****o 文档编号:26771591 上传时间:2022-07-19 格式:DOCX 页数:20 大小:365.08KB
返回 下载 相关 举报
生物信息学复习总结.docx_第1页
第1页 / 共20页
生物信息学复习总结.docx_第2页
第2页 / 共20页
点击查看更多>>
资源描述

《生物信息学复习总结.docx》由会员分享,可在线阅读,更多相关《生物信息学复习总结.docx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精品名师归纳总结生物信息期末总结1. 生物信息学 Bioinformatics 定义 : 第一章 生物信息学是一门交叉科学, 它包含了生物信息的猎取、加工、储备、安排、 分析、说明等在内的全部方面, 它综合运用数学、 运算机科学和生物学的各种工具来阐明和懂得大量数据所包含的生物学意义。 或: 生物信息学是运用运算机技术和信息技术开发新的算法和统计方法,对生物试验数据进行分析, 确定数据所含的生物学意义,并开发新的数据分析工具以实现对各种信息的猎取和治理的学科。 NSFC 2. 科研机构及网络资源中心:NCBI :美国国立卫生讨论院 NIH 下属国立生物技术信息中心。EMB net : 欧洲分子

2、生物学网络。EMBL-EBI :欧洲分子生物学试验室下属欧洲生物信息学讨论所。ExPASy: 瑞士生物信息讨论所SIB 下属的蛋白质分析专家系统。Expert Protein Analysis SystemBioinformatics Links Directory。PDB Protein Data Bank。UniProt 数据库3. 生物信息学的主要应用:1. 生物信息学数据库。2序列分析。 3比较基因组学。 4表达分析。5蛋 白质结构猜测。 6系统生物学。 7运算进化生物学与生物多样性。4. 什么是数据库 :1、 定义: 数据库是储备与治理数据的运算机文档、结构化记录形式的数据集合。 记

3、录 record 、字段 field、值 value 2、 生物信息数据库应满意5 个方面的主要需求 :1 时间性。 2 注释。 3 支撑数据 。4 数据质量 。5 集成性。3、生物学数据库的类型 : 一级数据库和二级数据库。 国际闻名的一级核酸数据库有Genbank 数据库、 EMBL 核酸库和 DDBJ 库等;蛋白质序列数据库有 SWISS-PROT等。蛋白质结构库有 PDB 等。可编辑资料 - - - 欢迎下载精品名师归纳总结4、 一级数据库与二级数据库的区分:1) 一级数据库:包括: a 基因组数据库来自基因组作图。b. 核酸和蛋白质一级结构序列数据库。c. 生物大分子 ( 主要是蛋白

4、质 ) 的三维空间结构数据库, ( 来自 X-衍射 和核磁共振结构测定 )。2) 二级数据库:是对原始生物分子数据进行整理、分类的结果,是在一级数据库、试验数据和理论分析的基础上针对特定的应用目标而建立的。一般说来,一次数据库的数据量大,更新速度快,用户面广,通常需要高性能的运算机服务器、大容量的磁盘空间和特的的数据库治理系统支撑。二次数据库的容量就小得多,更新速度也不像一次数据库那样快,也可以不用大型商业数据库软件支持,这类针对不同问题开发的二次数据库的最大特点是使用便利,特殊适用于运算机使用体会不太丰富的生物学家。5、一个数据库记录 ( entry )一般由两部分组成: 1) 原始序列数据

5、 ( sequenee data 。2) 描述这些数据生物学信息的注释 ( annotation ):注释中包含的信息与相应的序列数据同样重要和有应用价值。6 数据的完整性和注释工作量: 1)序列数据广,序列注释不够完整。2)库数据面窄,序列注释全面 .7、数据库的动态更新: 1)不断增加。 2)不断修正 .5、几个大型数据库简介:NCBI 、EBI 、SIB(共点:拥有巨大的一级数椐库、大量工具软件和广泛的外联。) 1、NCBI (www.nebi.nlm.nih.gov):NCBI 是指美国国家生物技术信息中心( Natio nal Cen ter for Biotech no logy

6、In formation ,NCBI ),成立于 1988 年,其主要工作是开发以Ge nBank 为代表的 数据库,进行运算生物学讨论,开发用于分析基因组数据的软件工具,发布生物 医学信息。可编辑资料 - - - 欢迎下载精品名师归纳总结1) Entrez (集成化的数据库)( http:/www.ncbi.nlm.nih.gov/gquery/)Entrez 是 NCBI 闻名的用于提取序列信息的工具,它将科学文献、DNA 和蛋白质序列数据库、蛋白质三维结构数据、种群讨论数据以及全基因组组装数据整合成一个高度集成的系统。类似于EBI 的 SRS (见下文),是一个查询、提取和显示系统。 T

7、he original version(原始版本) ( 1991 ) of Entrez had just 3 nods可编辑资料 - - - 欢迎下载精品名师归纳总结2) 可查 Protein 、PubMed (生物医学文献数据库)Pathway 等相关信息。、Nucleotide 、Genome Gene可编辑资料 - - - 欢迎下载精品名师归纳总结可编辑资料 - - - 欢迎下载精品名师归纳总结RmhiMwi Books乂I|* 吠Entrez 娄殳抑:丿车可编辑资料 - - - 欢迎下载精品名师归纳总结可编辑资料 - - - 欢迎下载精品名师归纳总结GenomeTe xoinomyD

8、onisins 30OMIMOenBank, EMBL h DDBJ J 何. * 虽 PD Bvv HSJ5-PFIOT.P|R p IFllF”户匚曰充俨肿 w miylL MU 巳尹和 J 般料 :勺/ 仁啊 f 牝 wirviom : 或; 骏傳列曲三三谁创构ODD: 11UJU-AIfl。 MMDe I I I 白勺 . 麻 。 ftt: iti I i 丿 J氏可编辑资料 - - - 欢迎下载精品名师归纳总结EZF 1Uni STSRopS. tLJ niQ t=mn=. 啟 l 羽越 I# I is* t- J SKtW 。人 I hE 做切。岳 3:凶 旳 1伽严 钠 泌rr

9、Man if- : .-V i: i ff - E 七舟村可编辑资料 - - - 欢迎下载精品名师归纳总结2、EMBL-EBIwww.ebi.ac.uk EMBL Nucleotide Sequenee Data Librarynow known as EMBL-Bank为世界上第一个核酸序列数据库( 1980 )。欧洲分子生物学试验室下属欧洲生物信息学讨论所(European Bioi nformaticsInstitute, EBI,1992 , 英国) EMBL-EBI 核酸数据库供应了序列搜寻的服务。通过它的序列提取系统一 SRS6 (搜寻引擎),我们可以用十几种不同的方法(如用关键字

10、。搜寻我们想要的序列。 EBI 仍资助了 Ensembl 项目, Ensembl 是一个 用于对各类物种基因组进行生物信息学分析的特别完备的网站。欧洲分子生物学 试验室 EMBL The European Molecular Biology Laboratory 。Services UniProt 、ArrayExpress 、Ensembl 、InterPro 、PDBe 等界面。3、SIB us.expasy.org 瑞士生物信息讨论所 Swiss Institue of Bioinformatics,SIB ,30 March 1998 。 用于猎取蛋白质序列和相关数据的最有用的资源之一

11、就SIB 供应的蛋白质专家分析系统: SWISS-PROT ,ExPASy Expert Protein Analysis System瑞士日内瓦 高校专家蛋白质分析系统 http:/www.expasy.ch/o可编辑资料 - - - 欢迎下载精品名师归纳总结6、核酸序列数据库 :1、国际上权威的核酸序列数据库:(1) 欧洲分子生物学试验室的EMBL ;(2) 美国生物技术信息中心的GenBank 。(3) 日本遗传讨论所的 DDBJ , http:/www.ddbj.nig.ac.jp/ 。这三个数据库是综合性的DNA 和 RNA 序列数据库,每条记录代表一个单独、连续、附有注释的 DNA

12、 或 RNA 片段。三个数据库中的数据基本一样,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。2、INSDC 国际核酸序列数据库协会:1998 年, GenBank 、EMBL 和 DDBJ 共同成立了国际核酸序列数据库协会 International Nucleotide Sequenee Database CollaboratioHNSDC ,三大核酸数据库之间每天将新测定或更新的数据进行交换共享,保证数据信息的完整与同步,每两个月更新一次版本。 http:/www.insdc.org/ 7、蛋白质序列数据库:1) PIR Protein Information Res

13、ource。 http:/pir.georgetown.edu/2) SWISS-PROT 。 http:/www.expasy.ch/sprot/sprot-top.htm3) TrEMBL 。 http:/www.ebi.ac.uk/trembl/index.html是与 SWISS-PROT相 关的一个数据库。包含从 EMBL 核酸数据库中依据编码序列 CDS 翻译 而得到的蛋白质序列,并且这些序列尚未集成到SWISS-PROT 数据库中。4) NCBI 美国国家生物技术信息中心 Natio nal Cen ter for Biotech no logy In formation , N

14、CBI 。5) UniProt 。通用蛋白质数据库 http:/www.uniprot.org/ 包括: Swiss-Prot 、TrEMBL 、PIR 用户可以通过文本查询数据库,可以利用 BLAST 程序搜寻数据库,也可以直接通过 FTP 下载数据。&生物大分子结构数据库:1) PDB Protein Data Bank。 http:/www.rcsb.org/ 2) MMDBMolecular Modeling Database。 www.nebi.nlm.nih.gov/Structure/可编辑资料 - - - 欢迎下载精品名师归纳总结9、其它生物分子数据库:1 单碱基多态性数据库

15、dbSNP 。 2 基因组数据库 GDB 。 3 人类基 因组数据库 Ensembl 。 4)表达序列标记数据库 dbEST 。 5)序列标记位点数据 库 dbSTS; 6)面对基因聚类数据库 UniGene 。 7)蛋白质结构分类数据库 SCOP; 8 )蛋白质二级结构数据库 DSSP 。 9)蛋白质同源序列比对数据库HSSP 。 10) OMIM (Online Mendelian Inheritance in Man) ,是关于人类基因和遗传疾病的分类数据库。 Nucleic Acid Research附: 1、NCBI 和 EBI 使用的搜寻引擎分别是什么?答: NCBI 使用的是 E

16、ntrez ,EBI 使用的是 SRS 。2、FASTA 格式有哪些部分组成,以什么字符开头?答:包含 gi number .Database identifiers Accession numbe, Locus name 等部分,以 字符开头 。3、NCBI 的 WEB 和离线序列提交软件是什么? 答: WEB 提交工具: Bankit ; 离线提交: Sequin4、 系统生物学: 答:确定、分析和整合生物系统在遗传或环境扰动下全部内部元件间相互作用关系的一门学科。10 、序列数据的文件格式:(其次章 )格式主要有三种 :DNA/RNA/ 氨基酸代码的标识( B、 Z); GenBank

17、数据格式。FASTA 数据格式。一、 GBFF (GenBank flatfile) GenBank 平面文件格式:GenBank 、 EMBL 、 DDBJ 每天都相互同步更新各自的数据库,那么它们是怎样交换数据的了?这里引入 GBFF ( GenBank flatfile 即 GenBank 平面文件)格式。GBFF 是 GenBank 数据库的基本信息单位,是最为广泛使用的生物信息学序 列格式之一。 GBFF 文件分为三部分: a.头部包含整个记录的信息(描述符)。 b.其次部分包含了注释这一记录的特性。 c.第三部分是核苷酸序列本身。可编辑资料 - - - 欢迎下载精品名师归纳总结注:

18、全部序列数据库记录都在最终一行以“/”结尾。)1) GBFF :LOCUS 行 LOCUS ,SCU49845, 5028 bp, DNA linear,PLN ,21-JUN-1999 全部GBFF 都起始于 LOCUS 行:第一项:是 LOCUS 名称 SCU49845 : 现在唯独的作用是它在数据库中是独一无二的,已不再具有任何实 际意义。大多数情形 下,它 仅使用检索 号码 accesession number以满意对 LOCUS 名称的要求。其次项是序列长度 5028 bp : 规定单条数据库记录的长度不能超过350kb 。除 历史缘由外, Ge nBank 已经很少接受长度低于 5

19、0bp 的序列了。 第三项说明分子类型 DNA : 其序列必需是一种单一的分子类型。第四项是 GenBank 分类码 PLN :由 3 个字母组成。现在其作用仅限于在下载数据库时对数据库作简洁的分类。最终哪一项其最终修订日期 21-JUN-1999 : 有时也仅表示数据首次公开日期。2) GBFF :DEFINITION行definitionDEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p AXL2 and Rev7p REV7 gen es, complete cds.LOCUS 行的下一行为

20、 DEFINITION 行:主要对 GenBank 记录中所含的生物 学意义做出总结。它的说明内容包括了来源物种、基因/蛋白质名称。如序列是非编码区, 就包含对序列功能的简洁描述。如是一段编码区,就标明该序列是部分序列 partialcds 仍是全序列 complete cds 。3) GBFF :ACCESSION行 accession 检索号行 ACCESSION U49845可编辑资料 - - - 欢迎下载精品名师归纳总结检索号 accession 是序列记录的惟一指针。通常由1 个字母加 5 个数字 U12345 或由 2 个字母加 6 个数字 AF123456 组成。它在数据库中是惟

21、一而且不变的。有时 ACCESSION 行中可能会显现多个检索号,可能是由于数据提交者提交了一条与原记录相关的新记录或新提交的记录掩盖了原有的旧记录。我 们称第一个检索号为主检索号,其余的统称为二级检索号。4) GBFF :VERSION 行version 版本号行 VERSION U49845.1GI:1293613 VERSION 行是版本号 ,格式为:检索号 .版本号。 版本号用于识别数据库中 一条单一的特定核苷酸序列。 在数据库中, 如某条序列数据发生了变化, 即使是 单碱基的转变它的版本号也将增加,而其检索号保持不变。版本号系统与其后的 GI geninfo identifier 号

22、系统是平行运行的。即当一条序列转变后,它将被给予一个新的GI 号,其版本号也将增加。蛋白质的翻译发生任何变换,核酸序列都将被给予一个新的GI 号。5) GBFF :KEYWORDS行 keywords 关键词行KEYWORDS . 关键词行是用来描述序列的。假如该行没有任何内容,那么就只包含一个“.由于没有对比词汇表, 故 NCBI/GenBank拒绝接受关键词, 它只存在于旧的记录中。6) GBFF :OURCE 行source 来源行 SOURCE Saccharomyces cerevisiae bakers yeast ORGANISM Saccharomyces cerevisiae

23、 Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes;Saccharomycetales; Saccharomycetaceae; Saccharomyc es.对来源行 SOURCE 没做特殊的规定,它通常包含序列来源生物的简称,有时也包含分子类型。在下面以 NCBI 的分类数据库为依据,指明物种的正式科学名称。7) GBFF :REFERENCE行 reference 参考文献行 REFERENCE 1 bases 1 to 5028 AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,

24、J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 11, 1503-1509 1994 PUBMED 787189 0参考文献行将与该数据有关的参考文献均收录在内。将最先发表的文献列于可编辑资料 - - - 欢迎下载精品名师归纳总结第一位。假如序列数据没有被相关文献报道,该行将显现presS 。最终将有一个

25、可能的 PUBMED 指针。8) GBFF :FEATURES 行( features )特性表行( FEATURESLocation/Qualifiersunpublished ”或 “ in可编辑资料 - - - 欢迎下载精品名师归纳总结CDS1.206/codon_start=3/product=TCP1-beta /protein_id=AAA98665.1/db_xref=GI:1293614/translation=SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRA VVSSASEA AEVLLRVDNIIRARPRTANRQHMgene687.3158/ge

26、ne=AXL2. .)特性表(features )描述基因和基因的产物以及与序列相关的生物学特性。特 性表供应一个参考词汇表以对合法的特性进行注释。这些特性包括:1、该序列 是否执行一个生物学功能。2、它是否与一个生物学功能的表达相关。3、它是否 与其它分子相互作用。 4、它是否影响一条序列的复制。5、它是否与其他序列的 重组相关。 6、它是否是一条已识别的重复序列。7、它是否有二级或三级结构。8、它是否存在变异或者它是否被修订过。特性表格式是按表单的方式设计的,分三个主要部分:1) 特性表关键词( feature ), 简要说明功能组。2) 特性位置( location ),指明在特性表中的

27、什么的方可以找到相关特性, 在此可以包含操作符( operato )和功能性描述符( descriptor )以指明序 列需经过怎样的处理才能得到相应的特性。3) 限定词( qualifier ),相关特性的帮助信息,限定词组使用一组标准化的 对比词汇表以利于运算机从中提取信息。(这段序列可以解读为:该编码序列( CDS )起始于第 1 碱基,终止于第 206 碱基,它的产物是 TCP1-beta ,基因名为“ AXL2 。)9) GBFF : ORIGIN(origin )可编辑资料 - - - 欢迎下载精品名师归纳总结(ORIGIN1 gatcctccat atacaacggt atctc

28、cacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc) 在 GBFF 文件的最终,以类似于 FASTA 格式的方式给出了所记录的序列。二、FASTA 数据格式( FASTA format ):Accessi on nu mbers are labels for seque nceS检索号)FASTA 格代1可编辑资料 -

29、- - 欢迎下载精品名师归纳总结Ch 鼻强!| FASTAIM MH J 20 .JI3 电. |3. *gx I 460243b | UO7 3JS3.1 I SCUO7 1 63PWGV可编辑资料 - - - 欢迎下载精品名师归纳总结E盲 屉鼻 工*T- A鼻,Ac: 廐久TA7 % M . J I I J* I . 可编辑资料 - - - 欢迎下载精品名师归纳总结屉cA-reJ 匚云HuuicA幕 9bGenBanku5.er.J:nHATAuT可编辑资料 - - - 欢迎下载精品名师归纳总结;.TAATTAAQTMUUAJTIA0J4UAa蚩TtoQlr.二 ciVibEMBL:可编辑

30、资料 - - - 欢迎下载精品名师归纳总结此u扎csTTJLTuFe AHAcdTA-AJIdbjOOBJ只 .:*4可编辑资料 - - - 欢迎下载精品名师归纳总结厂 亍E 丹口SPSWISS-PROTJ可编辑资料 - - - 欢迎下载精品名师归纳总结4TA具-f-T L心芒畦-可编辑资料 - - - 欢迎下载精品名师归纳总结uc鼻ftAJ-uluTTA口c-cAU 亡pdbFrotiB ( n OalrQbQriJk匸I: AdJUTV可编辑资料 - - - 欢迎下载精品名师归纳总结-GGUATTTC亠 FA冷冲 AnuujcACCJT eI-Ac left primer,vvvvvvri

31、ght primer 4、Oligo 7 手工设计引物:上游 ATGGGAAAAGACTATTACAAAATC可编辑资料 - - - 欢迎下载精品名师归纳总结下游 TCAATTCGGCAGCGTATCGTAGAG挑选引物长度 f 选定上下游引物 f 3A G 肯定值不能超过 9 Duplex Formation 二聚体分析、 Hairpin formation 发夹分析(厶 G 不能超过 4.5 ) f 成分和 Tm f 错 误引发位点分析:一般在 100 以下,如正确引发效率达到 400 ,可承担超过 100 多点 f PCR 最终分析评判 f 引物二次挑选 (上下游引物在 ncbi 中进行

32、 blast 分析(搜寻 primer ncbi )并输入设计的引物,挑选 nr 数据库) f 引物最终评估(大 小、特异性、效率) f 爱护碱基与酶切位点( BamH I, Not I)。5、测序结果分析:(一、 Sanger 法测序。二、测序图查看。三、序列拼接。)San ger 法测序:流程:( 1.PCR 扩增。 2.产物纯化。 3.测序反应。 4. 电泳分别) 。DNA 测序的试验方法: (末端终止法)。测序图查看软件: Chromas Seqman 。 不好的结果:杂峰、套峰。e.g. 序列拼接实例 :1. SeqMan 软件启动界面。 2.原始测序文件导入软件。 3. Assem

33、ble(装配) 。4. Strategy of Conti (重叠群策略) Contig f Strategy view 和 Contig f Alignment viewf 去除冲突碱基和缺口(手动删除、修改可疑碱基)f 导出拼接序列。14 、核酸序列分析: ( 第四章 )(常规分析、比对分析、基因结构识别)1 、常规分析:(序列的检索、序列组分分析、序列变换、限制性酶切分析)1 、核酸序列检索:( Entrez 、 SRS )2、核酸序列组分分析:( Bioedit f 分子量。 DNAMAN f 碱基组成。 EditSeq f 碱基分布)1) EditSeq (碱基组成: Goodies

34、 DNA Statistic );2) Bioedit (碱基组成 Sequence- Nucleic Acid Nucleotide composition)。Bioedit : 一种对基因序列进行分析加工或序列拼接的软件。可编辑资料 - - - 欢迎下载精品名师归纳总结3、序列变换:(反向互补序列EditSeq fGoodies fReverse complemen 。t反向序列 EditSe Goodie 厂 Reverse Sequenc )4、限制性酶切分析:( BioEdit Seque nc A Nucleic Acid Restrict Map在线: NEBcutter 、We

35、bCutter 、Rebas.2、比对分析:意义:估计基因和蛋白质的进化演化规律。估计基因和蛋白质的结构和功能。 基本假设:序列的保守性功能的保守性。工具: Blast 和 Clustal X 。1) BLAST 比对( Basic Local Alignment Search Tool,基本局部比对搜寻工具)Baaic BLASTC*4 _AST pOyfmiUr呂 pfflGh 伸阳陪禎订肛 dpiabaiir 口爭】 0 4丹京 id 骨 叼疔 ry/i- & stn, nwqahAa -st d s-c&ntio 口3i-hlast. phi-blast, denc-triaiG E-or-chi proto on a1abosa using a trdrraiaAo 曰 nucl

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高考资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁