生物信息学复习题及答案(打印).pdf-淘文阁

资源描述

《生物信息学复习题及答案(打印).pdf》由会员分享，可在线阅读，更多相关《生物信息学复习题及答案(打印).pdf（9页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、名词解释：一、名词解释：1.1.生物信息学：生物信息学：研究大量生物数据复杂关系的学科，其特征是多学科交叉，以互联网为媒介，数据库为载体。利用数学知识建立各种数学模型;利用计算机为工具对实验所得大量生物学数据进行储存、检索、处理及分析，并以生物学知识对结果进行解释。2.2.二级数据库：二级数据库：在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来，是对生物学知识和信息的进一步的整理。3.FASTA3.FASTA 序列格式序列格式：是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串，大于号（）表示一个新文件的开始，其他无特殊要求。4.genbank4.gen

2、bank 序列格式：序列格式：是 GenBank 数据库的基本信息单位，是最为广泛的生物信息学序列格式之一。该文件格式按域划分为4 个部分：第一部分包含整个记录的信息（描述符）；第二部分包含注释；第三部分是引文区，提供了这个记录的科学依据；第四部分是核苷酸序列本身，以“/”结尾。5.Entrez5.Entrez 检索系统：检索系统：是 NCBI 开发的核心检索系统，集成了NCBI 的各种数据库，具有链接的数据库多，使用方便，能够进行交叉索引等特点。6.BLAST6.BLAST：基本局部比对搜索工具，用于相似性搜索的工具，对需要进行检索的序列与数据库中的每个序列做相似性比较。P947.7.查询序

3、列（查询序列（queryquery sequencesequence）：也称被检索序列，用来在数据库中检索并进行相似性比较的序列。P988.8.打分矩阵（打分矩阵（scoring matrixscoring matrix）：）：在相似性检索中对序列两两比对的质量评估方法。包括基于理论（如考虑核酸和氨基酸之间的类似性）和实际进化距离（如PAM）两类方法。P299.9.空位（空位（gapgap）：）：在序列比对时，由于序列长度不同，需要插入一个或几个位点以取得最佳比对结果，这样在其中一序列上产生中断现象，这些中断的位点称为空位。P2910.10.空位罚分空位罚分：空位罚分是为了补偿插入和缺失对序列

4、相似性的影响，序列中的空位的引入不代表真正的进化事件，所以要对其进行罚分，空位罚分的多少直接影响对比的结果。P3711.E11.E 值：值：衡量序列之间相似性是否显著的期望值。E 值大小说明了可以找到与查询序列（query）相匹配的随机或无关序列的概率，E 值越接近零，越不可能找到其他匹配序列，E值越小意味着序列的相似性偶然发生的机会越小，也即相似性越能反映真实的生物学意义。P9512.12.低复杂度区域：低复杂度区域：BLAST 搜索的过滤选项。指序列中包含的重复度高的区域，如 poly（A）。13.13.点矩阵（点矩阵（dot matrixdot matrix）：构建一个二维矩阵，其X 轴

5、是一条序列，Y 轴是另一个序列，然后在 2 个序列相同碱基的对应位置（x，y）加点，如果两条序列完全相同则会形成一条主对角线，如果两条序列相似则会出现一条或者几条直线；如果完全没有相似性则不能连成直线。14.14.多序列比对：多序列比对：通过序列的相似性检索得到许多相似性序列，将这些序列做一个总体的比对，以观察它们在结构上的异同，来回答大量的生物学问题。15.15.分子钟：分子钟：认为分子进化速率是恒定的或者几乎恒定的假说，从而可以通过分子进化推断出物种起源的时间。16.16.系统发育分析：系统发育分析：通过一组相关的基因或者蛋白质的多序列比对或其他性状，可以研究推断不同物种或基因之间的进化关

6、系。17.17.进化树的二歧分叉结构：进化树的二歧分叉结构：指在进化树上任何一个分支节点，一个父分支都只能被分成两个子分支。系统发育图：系统发育图：用枝长表示进化时间的系统树称为系统发育图，是引入时间概念的支序图。18.18.直系同源：直系同源：指由于物种形成事件来自一个共同祖先的不同物种中的同源序列，具有相似或不同的功能。（书：在缺乏任何基因复制证据的情况下，具有共同祖先和相同功能的同源基因。）19.19.旁系（并系）同源：旁系（并系）同源：指同一个物种中具有共同祖先，通过基因重复产生的一组基因，这些基因在功能上可能发生了改变。(书：由于基因重复事件产生的相似序列。)20.20.外类群：外类

7、群：是进化树中处于一组被分析物种之外的，具有相近亲缘关系的物种。21.21.有根树：有根树：能够确定所有分析物种的共同祖先的进化树。22.22.除权配对算法（除权配对算法（UPGMAUPGMA）：）：最初，每个序列归为一类，然后找到距离最近的两类将其归为一类，定义为一个节点，重复这个过程，直到所有的聚类被加入，最终产生树根。23.23.邻接法（邻接法（neighbor-joining methodneighbor-joining method）：是一种不仅仅计算两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制，能够克服 UPGMA 算法要求进化速率保持恒定的缺陷。24.24

8、.最大简约法（最大简约法（MPMP）：在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。25.25.最大似然法（最大似然法（MLML）：）：它对每个可能的进化位点分配一个概率，然后综合所有位点，找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估，并在此基础上构建系统发育树。26.一致树（致树（consensusconsensus treetree）：在同一算法中产生多个最优树，合并这些最优树得到的树即一致树。27.27.自举法检验（自举法检验（BootstrapBootstrap）：）：放回式抽样统计法。通过对数据集多次重复取样，构建多个进化树，用

9、来检查给定树的分枝可信度。28.28.开放阅读框（开放阅读框（ORFORF）：开放阅读框是基因序列的一部分，包含一段可以编码蛋白的碱基序列。29.29.密码子偏好性（密码子偏好性（codon biascodon bias）：）：氨基酸的同义密码子的使用频率与相应的同功tRNA 的水平相一致，大多数高效表达的基因仅使用那些含量高的同功tRNA 所对应的密码子，这种效应称为密码子偏好性。30.30.基因预测的从头分析：基因预测的从头分析：依据综合利用基因的特征，如剪接位点，内含子与外显子边界，调控区，预测基因组序列中包含的基因。31.31.结构域（结构域（domaindomain）：保守的结构单元

10、，包含独特的二级结构组合和疏水内核，可能单独存在，也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。32.32.超家族超家族：进化上相关，功能可能不同的一类蛋白质。33.33.模体（模体（motifmotif）：短的保守的多肽段，含有相同模体的蛋白质不一定是同源的，一般10-20 个残基。34.34.序列表谱（序列表谱（profileprofile）：是一种特殊位点或模体序列，在多序列比较的基础上，氨基酸的权值和空位罚分的表格。35.PAM35.PAM 矩阵：矩阵：PAM 指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性，通过这种可能性可以鉴定蛋白质之间的相似性，并产

11、生蛋白质之间的比对。一个 PAM 单位是蛋白质序列平均发生1%的替代量需要的进化时间。36.BLOSUM36.BLOSUM 矩阵：矩阵：模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如，在BLOSUM62 矩阵中，比对的分值来自不超过 62%一致率的一组序列。37.PSI-BLAST37.PSI-BLAST：位点特异性迭代比对。是一种专门化的的比对，通过调节序列打分矩阵（scoring matrix）探测远缘相关的蛋白。38.RefSeq38.RefSeq：给出了对应于基因和蛋白质的索引号码，对应于最稳定、最被人承认的 Genbank

12、序列。39.PDB39.PDB（Protein Data BankProtein Data Bank）：PDB 中收录了大量通过实验（X 射线晶体衍射，核磁共振NMR）测定的生物大分子的三维结构，记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB 数据库的访问号由一个数字和三个字母组成（如，4HHB），同时支持关键词搜索，还可以 FASTA程序进行搜索。40.GenPept:40.GenPept:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大，且随核酸序列数据库的更新而更新，但它们均是由核酸序列翻译得到的序列，未经试验证实，也没有详细的注释。41.41.折叠子（

13、折叠子（FoldFold）：在两个或更多的蛋白质中具有相似二级结构的大区域，这些大区域具有特定的空间取向。42.TrEMBL42.TrEMBL：是与 SWISS-PROT 相关的一个数据库。包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列，并且这些序列尚未集成到SWISS-PROT 数据库中。43.MMDB(Molecular Modeling Database)43.MMDB(Molecular Modeling Database)：是（NCBI）所开发的生物信息数据库集成系统Entrez 的一个部分，数据库的内容包括来自于实验的生物大分子结构数据。与PDB 相比，

14、对于数据库中的每一个生物大分子结构，MMDB 具有许多附加的信息，如分子的生物学功能、产生功能的机制、分子的进化历史等，还提供生物大分子三维结构模型显示、结构分析和结构比较工具。44.SCOP44.SCOP 数据库：数据库：提供关于已知结构的蛋白质之间结构和进化关系的详细描述，包括蛋白质结构数据库 PDB 中的所有条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外，对于每一个蛋白质还包括下述信息：到PDB 的连接，序列，参考文献，结构的图像等。可以按结构和进化关系对蛋白质分类，分类结果是一个具有层次结构的树，其主要的层次依次是类（class）、折叠子（fold）、超家族（super fa

15、mily）、家族（family）、单个 PDB 蛋白结构记录。45.PROSITE45.PROSITE：是蛋白质家族和结构域数据库，包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等；PROSITE 还包括根据多序列比对而构建的序列统计特征，能更敏感地发现一个序列是否具有相应的特征。46.Gene Ontology46.Gene Ontology 协会：协会：编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从 3 个方面描述基因产物的性质

16、，即，分子功能，生物过程，细胞区室。47.47.表谱（表谱（PSSMPSSM）：指一张基于多序列比对的打分表，表示一个蛋白质家族，可以用来搜索序列数据库。48.48.比较基因组学：比较基因组学：是在基因组图谱和测序的基础上，利用某个基因组研究获得的信息推测其他原核生物、真核生物类群中的基因数目、位置、功能、表达机制和物种进化的学科。49.49.简约信息位点：简约信息位点：指基于 DNA 或蛋白质序列，利用最大简约法构建系统发育树时，如果每个位点的状态至少存在两种，每种状态至少出现两次的位点。其它位点为都是非简约性信息位点。二、问答题1 1）生物信息学的发展经历了哪几个阶段生物信息学的发展经历了

17、哪几个阶段答：生物信息学的发展经历了3 个阶段。第一个阶段是前基因组时代。这一阶段主要是以各种算法法则的建立、生物数据库的建立以及 DNA 和蛋白质序列分析为主要工作；第二阶段是基因组时代。这一阶段以各种基因组计划测序、网络数据库系统的建立和基因寻找为主要工作。第三阶段是后基因组时代。这一阶段的主要工作是进行大规模基因组分析、蛋白质组分析以及其他各种基因组学研究。2 2）生物信息学步入后基因组时代后，其发展方向有哪几个方面。生物信息学步入后基因组时代后，其发展方向有哪几个方面。答：生物信息学步入后基因组时代后，其发展方向主要有：各种生物基因组测序及新基因的发现；单核苷酸多态性（SNP）分析；基

18、因组非编码区信息结构与分析；比较基因组学和生物进化研究；蛋白质结构和功能的研究。3 3）美国国家生物技术信息中心（）美国国家生物技术信息中心（NCBINCBI）的主要工作是什么？请列举）的主要工作是什么？请列举 3 3 个以上个以上 EntrezEntrez 系统系统可以检索的数据库。可以检索的数据库。（NCBINCBI 维护的数据库）维护的数据库）NCBINCBI 的的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物，医学问题。为科学界开发，维护和分享一系列的生物信息数据库；开发和促进生物信息学数据库，数据的储存，交换以及生物学命名规则的标准化。维护的主要数据库包括答：PubMe

19、d、核酸序列数据库 GenBank、PROW、三维蛋白质结构分子模型数据库MMDB。4 4）序列的相似性与同源性有什么区别与联系？）序列的相似性与同源性有什么区别与联系？答：相似性是指序列之间相关的一种量度，两序列的的相似性可以基于序列的一致性的百分比；而同源性是指序列所代表的物种具有共同的祖先，强调进化上的亲缘关系。P1475 5）BLASTBLAST 套件的套件的 blastnblastn、blastpblastp、blastxblastx、tblastntblastn 和和 tblastxtblastx 子工具的用途什么？子工具的用途什么？答：blastn 是将给定的核酸序列与核酸数据库

20、中的序列进行比较；Blastp 是使用蛋白质序列与蛋白质数据库中的序列进行比较，可以寻找较远的关系；Blastx 将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对，对分析新序列和EST 很有用；Tblastn 将给定的氨基酸序列与核酸数据库中的序列（双链）按不同的阅读框进行比对，对于寻找数据库中序列没有标注的新编码区很有用；Tblastx 只在特殊情况下使用，它将 DNA 被检索的序列和核酸序列数据库中的序列按不同的阅读框全部翻译成蛋白质序列，然后进行蛋白质序列比对。P976 6）简述）简述 BLASTBLAST 搜索的算法思想。搜索的算法思想。答：BLAST 是

21、一种局部最优比对搜索算法，将所查询的序列打断成许多小序列片段，然后小序列逐步与数据库中的序列进行比对，这些小片段被叫做字”word”；当一定长度的的字（W）与检索序列的比对达到一个指定的最低分（T）后，初始比对就结束了；一个序列的匹配度由各部分匹配分数的总和决定，获得高分的序列叫做高分匹配片段（HSP），程序将最好的 HSP 双向扩展进行比对，直到序列结束或者不再具有生物学显著性，最后所得到的序列是那些在整体上具有最高分的序列，即，最高分匹配片段（MSP），这样，BLAST 既保持了整体的运算速度，也维持了比对的精度。P957 7）什么是物种的标记序列？）什么是物种的标记序列？答：指物种特有的

22、一段核苷酸序列。可以通过相似性查询，得到某一序列在数据库中的某一物种中反复出现，且在其他物种中没有的明显相似的序列。8 8）什么是多序列全局比对的累进算法？（三个步骤）什么是多序列全局比对的累进算法？（三个步骤）答：第一，所有的序列之间逐一比对（双重比对）；第二，生成一个系统树图，将序列按相似性大致分组；第三，使用系统树图作为引导，产生出最终的多序列比对结果。P529 9）简述构建进化树的步骤，每一步列举）简述构建进化树的步骤，每一步列举 1-21-2 种使用的软件或统计学方法。种使用的软件或统计学方法。答：（1）多序列比对：Clustal W（2）校对比对结果：BIOEDIT（3）建树：ME

23、GA（4）评估系统发育信号和进化树的牢固度：自举法（Bootstrap）P1141010）简述除权配对法（）简述除权配对法（UPGMAUPGMA）的算法思想。）的算法思想。答：通过两两比对聚类的方法进行，在开始时，每个序列分为一类，分别作为一个树枝的生长点，然后将最近的两序列合并，从而定义出一个节点，将这个过程不断的重复，直到所有的序列都被加入，最后得到一棵进化树。P1191111）简述邻接法（）简述邻接法（NJNJ）构树的算法思想。）构树的算法思想。答：邻接法的思想不仅仅计算最小两两比对距离，还对整个树的长度进行最小化，从而对树的拓扑结构进行限制。这种算法由一棵星状树开始，所有的物种都从一个

24、中心节点出发，然后通过计算最小分支长度的和相继寻找到近邻的两个序列，每一轮过程中考虑所有可能的序列对，把能使树的整个分支长度最小的序列对一组，从而产生新的距离矩阵，直到寻找所有的近邻序列。P1171212）简述最大简约法（）简述最大简约法（MPMP）的算法思想。）的算法思想。P68P68答：是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则，所需变异次数最少（演化步数最少）的演化树可能为最符合自然情况的系统树。在具体的操作中，分为非加权最大简约分析（或称为同等加权）和加权最大简约分析，后者是根据性状本身的演化规律（比如 DNA 不同位点进化速率不同）而对其进行不同的加权处理。P1201

25、313）简述最大似然法（）简述最大似然法（MLML）的算法思想。）的算法思想。P69P69答：是一种基于离散特征的进化树算法。该法首先选择一个合适的进化模型，然后对所有可能的进化树进行评估，通过对每个进化位点的替代分配一个概率，最后找出概率最大的进化树。P12214 4）UPGMAUPGMA 构树法不精确的原因是什么？构树法不精确的原因是什么？P69P69答：由个于 UPGMA 假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就是存在着一个分子钟；这种算法当所构建的进化树的序列进化速率明显不一致时，得到的进化树相对来说不准确的。P119,倒数第 2 段，前 4 行。15)15)在在 ME

26、GA2MEGA2 软件中，提供了哪些碱基替换距离模型，试列举其中软件中，提供了哪些碱基替换距离模型，试列举其中 3 3 种，解释其含义。种，解释其含义。答：碱基替换模型包括，No.of differences、p-distance、Jukes-Cantor distance、T ajima-Neidistance、Kimur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distancep-distance：表示有差异的核苷酸位点在序列中所占比例，将有差异的核苷酸位点数除已经比对的总位点数就可以得到Jukes-Canto

27、r：模型假设 A T C G 的替换速率是一致的，然后给出两个序列核苷酸替换数的最大似然估计Kimura 2-parameter：模型考虑到了转换很颠换队多重击中的影响，但假设整个序列中 4钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的1616）列举）列举 5 5 项项 DNADNA 序列分析的内容及代表性分析工具。序列分析的内容及代表性分析工具。答：答：（1）寻找重复元件：RepeatMasker（2）同源性检索确定是否存在已知基因：BLASTn（3）从头开始方法预测基因：Genscan（4）分析各种调控序列：TRES/DRAGON PROMOTOR FINDER(5)CpG 岛

28、：CpGPlotP130，表格代表性工具：ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise1717）如何用）如何用 BLASTBLAST 发现新基因？发现新基因？答：答：从一个一直蛋白质序列开始，通过tBLASTn 工具搜索一个 DNA 数据库，可以找到相应的匹配，如与 DNA 编码的已知蛋白质的匹配或者与DNA 编码的相关蛋白质的匹配。然后通过 BLASTx 或 BLASTp 在蛋白质数据库中搜索DNA 或蛋白质序列来“确定”一个新基因。1818）试述）试述 SCOPSCOP 蛋白质分类方案蛋白质分类方案答：答：SCOP 将 PDB 数据库中的蛋白质按传统

29、分类方法分成型、型、/型、+型，并将多结构域蛋白、膜蛋白和细胞表面蛋白、N 蛋白单独分类，一共分成 7 种类型，并在此基础上，按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族，SCOP 数据库按照种属名称将它们分成若干子类，一直到蛋白质分子的亚基。1919）试述）试述 SWISS-PROTSWISS-PROT 中的数据来源。中的数据来源。答：答：（1）从核酸数据库经过翻译推导而来；（2）从蛋白质数据库PIR 挑选出合适的数据；（3）从科学文献中摘录；（4）研究人员直接提交的蛋白质序列数据。2020）TrEMBLTrEMBL哪两个部分？哪两个部分？答：答：（1）SP-

30、TrEMBL(SWISS-PROT TrEMBL)包含最终将要集成到 SWISS-PROT 的数据，所有的 SP-TrEMBL 序列都已被赋予SWISS-PROT 的登录号。（2）REM-TrEMBL(REMaining TrEMBL)包括所有不准备放入 SWISS-PROT 的数据，因此这部分数据都没有登录号。2121）试述）试述 PSI-BLASTPSI-BLAST 搜索的搜索的 5 5 个步骤。个步骤。答：答：1 选择待查序列（query）和蛋白质数据库；2 PSI-BLAST 构建一个多序列比对，然后创建一个序列表谱（profile）又称特定位置打分矩阵（PSSM）；3 PSSM 被用

31、作 query 搜索数据库4 PSI-BLAST 估计统计学意义(E values)5 重复 3 和 4,直到没有新的序列发现。2222）列举）列举 5 5 种常用的系统发育分析软件种常用的系统发育分析软件PHYLIPPHYLIP、PAUPPAUP、MEGAMEGA、PAMLPAML、TreeViewTreeView。三三.操作与计算题操作与计算题1.1.如何获取访问号为如何获取访问号为 U49845U49845的的 genbankgenbank文件？解释如下文件？解释如下 genbankgenbank文件的文件的 LOCUSLOCUS行提供的行提供的信息：信息：LOCUSSCU4984550

32、28 bpDNAlinearPLN21-JUN-1999答：（1）访问NCBI 的 Entrez 检索系统，（2）选择核酸数据库，（3）输入U49845 序列访问号开始检索。第一项是 LOCUS 名称，前三个字母代表物种名第二项是序列长度第三项是序列分子类型第四项是分子为线性的第五项是 GenBank 分类码第六项是最后修订日期P132.2.利用利用 EntrezEntrez 检索系统对核酸数据搜索，输入如下信息，将获得什么结果：检索系统对核酸数据搜索，输入如下信息，将获得什么结果：AF114696:AF114714ACCNAF114696:AF114714ACCN。P35P35答：获得序列访

33、问号AF114696 到 AF114714 之间的连续编号的序列。3.3.相比使用相比使用 BLASTBLAST 套件搜索数据库，套件搜索数据库，BLAST2BLAST2 工具在结果呈现上有什么优点？工具在结果呈现上有什么优点？答：BLAST2 序列分析工具，它能进行两条序列的精确比对，同时给出两序列的图形化比对结果和文本形式的联配结果。4.MEGA24.MEGA2 如何将其它多序列比对格式文件转化为如何将其它多序列比对格式文件转化为 MEGEMEGE 格式的多序列比对文件？格式的多序列比对文件？答：（1）选择菜单file，（2）选择 Text File Editor and Format C

34、overter 工具，（3）调入需要转换的序列和相应的格式，（4）获得转换后的 MEGA 格式的文件并保存。5.5.什么简约信息位点什么简约信息位点 Pi?Pi?答：指基于DNA 或蛋白质序列，应用最大简约法构建系统发育树时，如果某个位点的状态存在两种或两种以上，每种状态出现两次或两次以上，这样的位点称简约信息位点。6.6.以下软件的主要用途是什么？以下软件的主要用途是什么？RepeatMasker,CpGPlot,Splice View,Genscan,ORF finder,neural network promoter prediction.答：RepeatMasker：是对重复序列进行分

35、析的软件GpGPlot：用来查找一条 DNA 序列中 CpG 岛，使用 Gardine-Garden 和 Frommer 描述的方法Splice View：是对一段序列进行剪接位点的分析即其中的受体和供体位点Genscan：是一种从头分析工具ORF finder：是用来分析序列 ORF 的工具neural networkpromoter prediction：神经网络启动子预测是另外一种分析启动子的方法7.7.为下面的序列比对确定比对得分：匹配得分为下面的序列比对确定比对得分：匹配得分=+1=+1，失配得分，失配得分=0=0，空位得分，空位得分=-1=-1。TGTACGGCTATATC-CGC

36、CT-TA答：TTGCT-A-CCGGGCCCTTA-TTAA10-1-111011-111最后得分 1+0+（-1）+（-1）+1+1+0+1+1+（-1）+1+1=48.8.用用 UPGMAUPGMA 重建系统发生树，距离矩阵如下：重建系统发生树，距离矩阵如下：物种BCDA9812B1115C10DE1518135答：用 Newick 格式表示的树图：（AC）B）（DE）。分析过程：（1）两条序列间的最小距离是dDE,所以物种 D 和 E 聚到一组，如下图。DEDE(2)计算新的距离矩阵，其中复合物种（DE）替换 D 和 E，如下表。其他物种与新物种组之间的距离由它们与组中两个物种（D 和

37、 E）之间距离的平均值决定,如，d（DE）A=1/2（dAD+dAE）=1/2(12+15)=13.5物种BCDEA9813.5B1116.5C11.5第二次聚类在 A 和 C 之间，组成 AC 类。如下图，DEAC(AC)(DE)(3)将 A 和 C 合并，计算新的矩阵，如下表，最后一次聚类（AC）B）将物种 B 的分支点放在（AC）和（DE）的共同祖先之间。物种ACDEB1016.5DAC12.5EBAC(AC)B)(DE)9.9.画出画出 4 4 个物种的个物种的 3 3 棵不同的无根树棵不同的无根树.这这 4 4 个物种在某位置上的核苷酸分别是个物种在某位置上的核苷酸分别是 T,T,C

38、T,T,C 和和 C,C,为为每个内部节点推断的祖先序列每个内部节点推断的祖先序列,标出最可能的候选核苷酸标出最可能的候选核苷酸.3.3 棵可能的无根树中有几棵是一棵可能的无根树中有几棵是一样简约的样简约的(因为他们有最小替换数因为他们有最小替换数)?)?有几棵树的替换树是有几棵树的替换树是 2?2?，有大于，有大于 2 2 个替换的树吗个替换的树吗?A(T)(T)B(T)A(T)(T)C(C)C(C)(T)(T)D(C)(T)D(C)A(T)(C)D(C)B(T)C(C)答：答：B(T)2 棵一样简约，替换树为2；2 棵；没有。10.10.试述蛋白质三维结构预测的三类方法试述蛋白质三维结构预测的三类方法（1）同源建模，对于一个未知结构的蛋白质，找到一个已知结构的同源蛋白质，以该蛋白质的结构为模板，为未知结构的蛋白质建立结构模型，序列相似性低于30%的蛋白质难以得到理想的结构模型；（2）在已知结模板的序列一致率小于25%时，使用折叠识别方法进行预测；（3）在找不到已知结构的蛋白质模板时使用从头预测的方法。P178-181

展开阅读全文

生物信息学 复习题及答案(打印).pdf

生物信息学复习题及答案(打印).pdf