《生物信息学复习题.pdf》由会员分享,可在线阅读,更多相关《生物信息学复习题.pdf(26页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、名词解释 1.生物信息学:是研究生物信息的采集、处理、存储、传播,分析和解释等各方面的学科,也是随着生命科学和计算机科学的迅猛发展,生命科学和计算机科学相结合形成的一门新学科。2.二级数据库:在一级数据库、实验数据和理论分析的基础上针对特定目标衍生而来,是对 生物学知识和信息的进一步的整理。序列格式:是将 DNA 或者蛋白质序列表示为一个带有一些标记的核苷酸或者氨基酸字符串,大于号()表示一个新文件的开始,其他无特殊要求。序列格式:是 GenBank 数据库的基本信息单位,是最为广泛的生物信息学序列格式之一。该文件格式按域划分为 4 个部分:第一部分包含整个记录的信息(描述符);第二部分包含注
2、释;第三部分是引文区,提供了这个记录的科学依据;第四部分是核苷酸序列本身,以“询序列(query sequence):也称被检索序列,用来在数据库中检索并进行相似性比较 的序列。P98 8.打分矩阵(scoring matrix):在相似性检索中对序列两两比对的质量评估方法。包括基于理论(如考虑核酸和氨基酸之间的类似性)和实际进化距离(如 PAM)两类方法。P29 9.空位(gap):在序列比对时,由于序列长度不同,需要插入一个或几个位点以取得最佳比对结果,这样在其中一序列上产生中断现象,这些中断的位点称为空位。P29 10.空位罚分:空位罚分是为了补偿插入和缺失对序列相似性的影响,序列中的空
3、位的引入 不代表真正的进化事件,所以要对其进行罚分,空位罚分的多少直接影响对比的结果。P37 值:衡量序列之间相似性是否显著的期望值。12.低复杂度区域:BLAST 搜索的过滤选项。指序列中包含的重复度高的区域,如 poly(A)。13.点矩阵(dot matrix):构建一个二维矩阵,其 X 轴是一条序列,Y 轴是另一个序列,然后在 2 个序列相同碱基的对应位置(x,y)加点,如果两条序列完全相同则会形成一条主对角线,如果两条序列相似则会出现一条或者几条直线;如果完全没有相似性则不能连成直线。14.多序列比对:通过序列的相似性检索得到许多相似性序列,将这些序列做一个总体的比对,以观察它们在结
4、构上的异同,来回答大量的生物学问题。15.分子钟:认为分子进化速率是恒定的或者几乎恒定的假说,从而可以通过分子进化推断 出物种起源的时间。16.系统发育分析:通过一组相关的基因或者蛋白质的多序列比对或其他性状,可以研究推 断不同物种或基因之间的进化关系。17.进化树的二歧分叉结构:指在进化树上任何一个分支节点,一个父分支都只能被分成两 个子分支。系统发育图:用枝长表示进化时间的系统树称为系统发育图,是引入时间概念的支序图。18.直系同源:指由于物种形成事件来自一个共同祖先的不同物种中的同源序列,具有相似 或不同的功能。(书:在缺乏任何基因复制证据的情况下,具有共同祖先和相同功能的同源基因。)1
5、9.旁系(并系)同源:指同一个物种中具有共同祖先,通过基因重复产生的一组基因,这 些基因在功能上可能发生了改变。(书:由于基因重复事件产生的相似序列。)20.外类群:是进化树中处于一组被分析物种之外的,具有相近亲缘关系的物种。21.有根树:能够确定所有分析物种的共同祖先的进化树。22.除权配对算法(UPGMA):最初,每个序列归为一类,然后找到距离最近的两类将其 归为一类,定义为一个节点,重复这个过程,直到所有的聚类被加入,最终产生树根。23.邻接法(neighbor-joining method):是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服
6、 UPGMA 算法要求进化速率保持恒定的缺陷。24.最大简约法(MP):在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基 酸替换的进化树。25.最大似然法(ML):它对每个可能的进化位点分配一个概率,然后综合所有位点,找到概率最大的进化树。最大似然法允许采用不同的进化模型对变异进行分析评估,并在此基础上构建系统发育树。26.一致树(consensus tree):在同一算法中产生多个最优树,合并这些最优树得到的树即一致树。27.自举法检验(Bootstrap):放回式抽样统计法。通过对数据集多次重复取样,构建多个进化树,用来检查给定树的分枝可信度。28.开放阅读框(ORF):开放阅读
7、框是基因序列的一部分,包含一段可以编码蛋白的碱基序列。29.密码子偏性(codon bias):氨基酸的同义密码子的使用频率与相应的同功 tRNA 的水 平相一致,大多数高效表达的基因仅使用那些含量高的同功 tRNA 所对应的密码子,这种效应称为密码子偏性。30.基因预测的从头分析:依据综合利用基因的特征,如剪接位点,内含子与外显子边界调控区,预测基因组序列中包含的基因。31.结构域(domain):保守的结构单元,包含独特的二级结构组合和疏水内核,可能单独存在,也可能与其他结构域组合。相同功能的同源结构域具有序列的相似性。32.超家族:进化上相关,功能可能不同的一类蛋白质。33.模体(mot
8、if):短的保守的多肽段,含有相同模体的蛋白质不一定是同源的,一般 10-20 个残基。34.序列表谱(profile):是一种特殊位点或模体序列,在多序列比较的基础上,氨基酸的权值和空位罚分的表格。矩阵:PAM 指可接受突变百分率。一个氨基酸在进化中变成另一种氨基酸的可能性,通过这种可能性可以鉴定蛋白质之间的相似性,并产生蛋白质之间的比对。一个 PAM 单位是蛋白质序列平均发生 1%的替代量需要的进化时间。矩阵:模块替代矩阵。矩阵中的每个位点的分值来自蛋白比对的局部块中的替代频率的观察。每个矩阵适合特定的进化距离。例如,在 BLOSUM62 矩阵中,比对的分值来自不超过 62%一致率的一组序
9、列。:位点特异性迭代比对。是一种专门化的的比对,通过调节序列打分矩阵(scoring matrix)探测远缘相关的蛋白。:给出了对应于基因和蛋白质的索引号码,对应于最稳定、最被人承认的 Genbank 序列。(Protein Data Bank):PDB 中收录了大量通过实验(X 射线晶体衍射,核磁共振 NMR)测定的生物大分子的三维结构,记录有原子坐标、配基的化学结构和晶体结构的描述等。PDB 数据库的访问号由一个数字和三个字母组成(如,4HHB),同时支持关键词搜索,还可以 FASTA 程序进行搜索。:是由 GenBank 中的 DNA 序列翻译得到的蛋白质序列。数据量很大,且随核酸序列数
10、据库的更新而更新,但它们均是由核酸序列翻译得到的序列,未经试验证实,也没有详细的注释。41.折叠子(Fold):在两个或更多的蛋白质中具有相似二级结构的大区域,这些大区域具有特定的空间取向。:是与 SWISS-PROT 相关的一个数据库。包含从 EMBL 核酸数据库中根据编码序列(CDS)翻译而得到的蛋白质序列,并且这些序列尚未集成到 SWISS-PROT 数据库中。(Molecular Modeling Database):是(NCBI)所开发的生物信息数据库集成系统 Entrez 的一个部分,数据库的内容包括来自于实验的生物大分子结构数据。与 PDB 相比,对于数据库中的每一个生物大分子结
11、构,MMDB 具有许多附加的信息,如分子的生物学功能、产生功能的机制、分子的进化历史等,还提供生物大分子三维结构模型显示、结构分析和结构比较工具。数据库:提供关于已知结构的蛋白质之间结构和进化关系的详细描述,包括蛋白 质结构数据库 PDB 中的所有条目。SCOP 数据库除了提供蛋白质结构和进化关系信息外,对于每一个蛋白质还包括下述信息:到 PDB 的连接,序列,参考文献,结构的图像等。可以按结构和进化关系对蛋白质分类,分类结果是一个具有层次结构的树,其主要的层次依次是类(class)、折叠子(fold)、超家族(super family)、家族(family)、单个 PDB 蛋白结构 记录。:
12、是蛋白质家族和结构域数据库,包含具有生物学意义的位点、模式、可帮助识别蛋白质家族的统计特征。PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;PROSITE 还包括根据多序列比对而构建的序列统计特征,能更敏感地发现一个序列是否具有相应的特征。Ontology 协会:编辑一组动态的、可控的基因产物不同方面性质的字汇的协会。从 3 个方面描述基因产物的性质,即,分子功能,生物过程,细胞区室。47.表谱(PSSM):指一张基于多序列比对的打分表,表示一个蛋白质家族,可以用来搜索 序列数据库。48.蛋白质组 p17
13、9:是指一个基因组中各个基因编码产生的蛋白质的总体,即一个基因组的全部蛋白产物及其表达情况。49.中心法则是指遗传信息从 DNA 传递给 RNA,再从 RNA 传递给蛋白质,即完成遗传信息的转录和翻译的过程。也可以从 DNA 传递给 DNA,即完成 DNA 的复制过程。这是所有有细胞结构的生物所遵循的法则。50.一级数据库:数据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 51.基因芯片(gene chip),又称 DNA 微阵列(microarray),是由大量 cDNA 或寡核苷酸探针密集排列所形成的探针阵列,其工作的基本原理是通过杂交检测信息。52.序列比对:为确定
14、两个或多个序列之间的相似性以至于同源性,而将它们按照一定的规律排列。53.数据库查询(database query):是指对序列、结构以及各种二次数据中的注释信息进行关键词匹配查找检索。54.数据库搜索(database search):在分子生物信息学中有特定含义,它是指通过特定的序列相似性比对算法,找出核酸或蛋白质序列数据库中与检测序列具有一定程度相似性的序列。55.相似性(similarity):数学上,相似性指两个图形的形状完全相似。若存在两个点的集,其中一个能透过放大缩小、平移或旋转等方式变成另一个,就说它们具有相似性。56.同源性:在进化上或个体发育上的共同来源而呈现的本质上的相似
15、性,但其功能不一定相同。57.同一性:是指两序列在同一位点核苷酸或氨基酸残基完全相同的序列比例。58.一致序列:在两个或多个同源序列的每一个位置上多数出现的核苷酸或氨基酸组成的序列。59.HMM(隐马尔可夫模型):是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。60.简约性信息位点:指基于 DNA 或蛋白质序列、利用最大简约法构建系统发育树时,在两个及以上分类单元(的序列)中存在差异,且其中至少有两种变异类型在该位点出现两次及以上,此类位点称为简约性信息位点。61.信息位点:由位点产生的突变
16、数目把其中的一课树与其他树区分开的位点。62.非信息位点:对于最大简约法来说没有意义的点。63.标度树:分支长度与相邻节点对的差异程度成正比的树。64.非标度树:只表示亲缘关系无差异程度信息。65.有根树:单一的节点能指派为共同的祖先,从祖先节点只有唯一的路径历经进化到达其他任何节点。66.无根树:只表明节点间的关系,无进化发生方向的信息,通过引入外群或外部参考种,可以在无根树中指派根节点。67.注释(annotation)对数据库中原始的 DNA 碱基序列添加相关信息(比如编码的基因,氨基酸序列等)或其他的注解。68.基因组注释(Genome annotation)是利用生物信息学方法和工具
17、,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学研究的一个热点。69.虚拟细胞:一种建模手段,把细胞定义为许多结构,分子,反应和物质流的集合体。70.质谱(MS)是一种准确测定真空中离子的分子质量/电荷比(m/z)的方法,从而使分子质量的准确确定成为可能。71.分子途径是指一组连续起作用以达到共同目标的蛋白质。72.先导化合物:是指具有一定药理活性的、可通过结构改造来优化其药理特性而可能导致药物发现的特殊化合物。73.权重矩阵(序列轮廓):它们表示完全结构域序列,多序列联配中每个位点的氨基酸都有分值,并且特定位置插入或缺失的可能性均有一定的衡量方法(课件定义)。74.系统发育学
18、(phylogenetic):确定生物体间进化关系的科学分支。75.系统生物学(systems biology):是研究一个生物系统中所有组分成分(基因、mRNA、蛋白质等)的构成以及在特定条件下这些组分间的相互关系,并分析生物系统在一定时间内的动力学过程。76.蛋白质组(proteome):是指一个基因组、一种生物或一个细胞/组织的基因组所表达的全套蛋白质。77.ESI 电喷雾离子化:一种适合大分子如蛋白质离子化没有明显降解的质谱技术。78.微阵列芯片:是指采用光导原位合成或微量点样等方法,将大量生物大分子比如核酸片段、多肽分子甚至组织切片、细胞等生物样品有序地固化于支持物(如玻片、尼龙膜等
19、载体)的表面,组成密集二维分子排列,然后与已标记的待测生物样品中靶分子反应,通过特定的仪器,比如激光共聚焦扫描仪或电荷偶联摄影像机对反应信号的强度进行快速、并行、高效地检测分析,从而判断样品中靶分子的数量。79.有监督分析法:这种方法引入某些形式的分类系统,从而将表达模式分配到一个或多个预定义的类目中。80.聚类分析:指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。81.虚拟消化:针对重要疾病特定靶标生物大分子的三维结构或定量构效关系(Quantitative structure-activity relationships,QSAR)模型,从现有小分子数据库中,搜寻与靶标生
20、物大分子结合或符合 QSAR 模型的化合物,进行筛选实验研究。82.无监督分析法:这种方法没有内建的分类标准,组的数目和类型只决定于所使用的算法和数据本身的分析方法。83.GenBank:是美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)建立的 DNA 序列数据库,从公共资源中获取序列数据,主要是科研人员直接提供或来源于大规模基因组测序计划(Benson 等,1998)。84.EMBL:(欧洲分子生物学实验室)(The European Molecular Biology Laboratory),于 1974年由欧
21、洲 14 个国家加上亚洲的以色列共同发起建立,包括一个位于德国 Heidelberg 的核心实验室,及三个位于德国 Hamburg,法国 Grenoble 及英国 Hinxton 的研究分部。85.DDBJ:(DNA Data Bank of Japan),于 1984 年建立,是世界三大 DNA 数据库之一,与 NCBI的 GenBank,EMBL 的 EBI 数据库共同组成国际 DNA 数据库,每日都 交换更新数据和信息,并主持两个国际年会国际 DNA 数据库咨询会议和国际 DNA 数据 库协作会议,互相交换信息,因此三个库的数据实际上是相同的。86.BLAST:是英语 Bell Labs
22、 Layered Space-Time 的缩写,是一项新的通信技术,它采用多天线系统利用多径传播效应以达到提高频谱利用率的目的。:是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。:是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。X:是一种利用渐近法(progressive alignment)进行多条序列比对的软件。即从多条序列中最相似(距离最近)的两条序列开始比对,按照各个序列在进化树上的位置,由近及远的将其它序列依次加入到最终的比对结果。89.Entrez:是美国国家生物技术信息中心所提供的在线资源
23、检索器。该资源将 GenBank 序列与其原始文献出处链接在一起。Entrez 是由 NCBI 主持的一个数据库检索系统。文摘数据库:是美国国立医学图书馆(The National Library of Medicine,简称 NLM)生产的国际性综合生物医学信息书目数据库,是当前国际上最权威的生物医学文献数据库。91.SRS(sequence retrieval system):是欧洲生物信息研究所开发的 SRS(Sequence Retrieval System)是以 WWW 界面运行的数据库检索系统,其主要功能是将所有数据库建立参照(cross-references)索引,用户可通过输入
24、查询代码、编号、物种来源、说明、文献、作者、日期、关键词等信息对所有已建立索引的数据库进行检索,从而得到用户所需的序列或相关内容。92.SWLSSMODEL:是一个自动化的蛋白质比较建模服务器。modeling:对于一个未知结构的蛋白质,找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。initio prediction:仅根据序列本身来预测其结构 95.molecular phylogenetic tree:又名分子进化树,是生物信息学中描述不同生物之间的相关关系的方法。通过系统学分类分析可以帮助人们了解所有生物的进化历史过程。96.gene tree(基
25、因树):是指基于单个同源基因差异构建的系统发生树。96.neighborjoining method:是一种不仅仅计算两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制,能够克服 UPGMA 算法要求进化速率保持恒定的缺陷。97.maximum parsimony method:在一系列能够解释序列差异的的进化树中找到具有最少核酸或氨基酸替换的进化树。98.MEGA(Molecular Evolutionary Genetics Analysis):is an integrated tool for automatic and manual sequence alignmen
26、t,inferring phylogenetic trees,mining web-based databases,estimating rates of molecular evolution,and testing evolutionary hypotheses.99.BioEdit:是一个序列编辑器与分析工具软件。功能包括:序列编辑、外挂分析程序、RNA分析、寻找特征序列、支持超过 20000 个序列的多序列文件、基本序列处理功能、质粒图绘制等等。100.EST:(Expressed Sequence Tag)表达序列标签是从一个随机选择的 cDNA 克隆,进行 5端和 3端单一次测序挑
27、选出来获得的短的 cDNA 部分序列。101.GSS:基因组勘测序列,是基因组 DNA 克隆的一次性部分测序得到的序列。包括随机的基因组勘测序列、cosmid/BAC/YAC末端序列、通过Exon trapped获得基因组序列、通过Alu PCR获得的序列、以及转座子标记序列等。102.ORF:是基因序列的一部分,包含一段可以编码蛋白的碱基序列,不能被终止子打断。(P86,指从 5端开始翻译起始密码子到终止密码子的蛋白质编码碱基序列。)103.promoter(启动子):是基因(gene)的一个组成部分,控制基因表达(转录)的起始时间和表达的程度。104.3UTR:3非翻译区的缩写,真核生物的
28、转录终止信号是在 3非翻译区的:polyA。105.CpG island:CpG 双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG 保持或高于正常概率。106.coiled coil:卷曲螺旋,是蛋白质中由 27 条 螺旋链相互缠绕形成类似麻花状结构的总称。卷曲螺旋是控制蛋白质寡聚化的元件,在机体内执行着分子识别、代谢调控、细胞分化、肌肉收缩、膜通道等生物学功能。107.heptad repeat:七肽重复区是典型的卷曲螺旋结构类型之一,由多个七肽单元连接而成的重复序列。108.structure domain:结构域,是在蛋白质三级结构中介于二级和三级结构之间的可以明显区分
29、但又相对独立的折叠单元,每个结构域自身形成紧实的三维结构,可以独立存在或折叠,但结构域与结构域之间关系较为松散。109.motif:蛋白质序列中较短的保守区域,通常为按一定的模式排列的氨基酸残基 也称为指纹(figureprint)。110.linux operating system:linux 操作系统,Linux 是一类 Unix 计 算机操作系统的统称。Linux 操作系统也是自由软件和开放源 代码发展中最著名的例子。111.BioPerl:an international association of users&developers of open source Perl tool
30、s for bioinformatics,genomics and life science 112.PubMed:是一个免费的生物医学文摘数据库,提供部分论文的摘要及指向全文的链接。作为 Entrez 资讯检索系统的一部分。113.HGP(human genome project):是一项规模宏大,跨国跨学科的科学探索工程。114.ncRNA:非编码 RNA(Non-coding RNA)是指不编码蛋白质的 RNA。115.miRNA:是一类由内源基因编码的长度约为 22 个核苷酸的非编码单链 RNA 分子,它们在动植物中参与转录后基因表达调控。填空题 1.常用的三种序列格式:NBRF/PI
31、R,FASTA 和 GDE 2.初级序列数据库:GenBank,EMBL 和 DDBJ 3.蛋白质序列数据库:SWISS-PROT 和 TrEMBL 4.提供蛋白质功能注释信息的数据库:KEGG(京都基因和基因组百科全书)和 PIR(蛋白质信息资源)5.目前由 NCBI 维护的大型文献资源是 PubMed 6.数据库常用的数据检索工具:Entrez,SRS,DBGET 7.常用的序列搜索方法:FASTA 和 BLAST 8.高分值局部联配的 BLAST 参数是 HSPs(高分值片段对),E(期望值)9.多序列联配的常用软件:Clustal 10.蛋白质结构域家族的数据库有:Pfam,SMART
32、 11.系统发育学的研究方法有:表现型分类法,遗传分类法和进化分类法 12.系统发育树的构建方法:距离矩阵法,最大简约法和最大似然法 13.常用系统发育分析软件:PHYLIP 14.检测系统发育树可靠性的技术:bootstrapping 和 Jack-knifing 15.原核生物和真核生物基因组中的注释所涉及的问题是不同的 16.检测原核生物 ORF 的程序:NCBI ORF finder 17.测试基因预测程序正确预测基因的能力的项目是 GASP(基因预测评估项目)18.二级结构的三种状态:螺旋,折叠和 转角 19.用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层,隐含
33、层和输出层 20.通过比较建模预测蛋白质结构的软件有 SWISS-PDBVIEWER(SWISSMODEL 网站)21.蛋白质质谱数据搜索工具:SEQUEST 22.分子途径最广泛数据库:KEGG 23.聚类分析方法,分为有监督学习方法,无监督学习方法 24.识别基因主要有两个途径即基因组 DNA 外显子识别和基于 EST 策略的基因鉴定。25.表达序列标签是从 mRNA 中生成的一些很短的序列(300-500bp),它们代表在特定组织或发育阶段表达的基因。26.序列比对的基本思想,是找出 检测基因 和 目标序列 的相似性,就是通过在序列中插入 空位 的方法使所比较的序列长度达到一致。比对的数
34、学模型大体分为两类,分别是整体比对 和 局部比对 。的基本原理是根据蛋白质 等电点 和 分子量 不同,进行两次电泳将之分离。第一向是 等电聚焦分离,第二向是 SDS-PAGE 分离。28.蛋白质组研究的三大关键核心技术是 双向凝胶电泳技术、质谱鉴定技术、计算机图像数据处理与蛋白质数据库。判断题 1、生物体的结构和功能越复杂的种类就越多,所需要的基因也越多,C 值越大,这是真核生物基因组的特点之一。(对)2、CDS 一定就是 ORF。(对)3、两者之间有没有共同的祖先,可以通过序列的同源性来确定,如果 两个基因或蛋白质有着几乎一样的序列,那么它们高度同源,就具有共同的祖先。(错)4、STS,是一
35、段 200-300bp 的特定 DNA 序列,它的序列已知,并且在基因组中属于单拷贝。(对)5、非编码 DNA 是“垃圾 DNA”,不具有任何的分析价值,对于细胞没有多大的作用。(错)6、基因树和物种树同属于系统树,它们之间可以等同。(错)7、基因的编码序列在 DNA 分子上是被不编码的序列隔开而不连续排列的。(对)8、对任意一个 DNA 序列,在不知道哪一个碱基代表 CDS 的起始时,可用 6框翻译法,获得 6 个潜在的蛋白质序列。(对)9、一个机体只有一个确定的基因组,但基因组内各个基因表达的条件和表达的程度随时间、空间和环境条件而不同。(对)10、外显子和内含子之间没有绝对的区分,一个基
36、因的内含子可以是另一个基因的外显子,同一个基因在不同的生理状况或生长发育的不同阶段,外显子组成也可以不同。(对)11、比较是科学研究中最常见的方法,在生物信息学研究中,比对是最常用和最经典的研究方法。(对)12、ORF 一定就是 CDS。(错)13、用不同的方法可以构建不同的系统发育树,为保证分析结果的可靠性,需要对进化树进行评估。(对)14、相似性是一种很直接的数量关系,无需实验验证。(错)15、基因树和物种树同属于系统树,它们之间可以等同。(错)16、蛋白质和 DNA 的同源性常常通过它们序列的相似性来判定,如果两个基因或蛋白质有着几乎一样的序列,具有高度的相似性,那么它们一定是同源。(错
37、)17、所谓局部比对是找出两个被比较序列的最类似片段。(对)不定项选择题 1、(ABC )是现在国际上最主要的三大核酸序列数据库 A.EMBL B.DDBJ C.GenBank D.NCBI E.EBI 2、RFLP 是 DNA 多态性中最多见的一种,它产生的机制包括(ABE )分子产生突变,使某些酶切位点数增加 B.DNA 分子产生突变,使某些酶切位点数减少 C.限制性酶切位点之间重复序列数目变异 D.限制性酶星活性 E.限制性酶切位点前后的 DNA 片断发生插入或删除 3、下面序列哪些为反向重复序列(BD )A.GCACTTGGCACTTG B.GCACTTGCAAGTGC CGTGAAC
38、CGTGAAC CGTGAACGTTCACG C.GCACTTGCAAGTGC D.GCACTAGCTAGCGG CGTGAACGTTCACG CGTGATCGATCGCC 4、分析 EST 序列时首要注意以下几点(ACDE )序列中除了 AGTC 外,可能出现未知碱基 只是单次测序,得出的结果没有可信度 序列中可能出现错误的插入和缺失,导致读码框移位 D.某个 EST 序列是数据库中另一序列的一个片段 E.某个 EST 序列不在基因的编码区内 5、人类基因组计划要完成的几张图谱分别是(ABCE )A.物理图谱 B.遗传图谱 C.序列图谱 D.生物图谱 E.基因图谱 6、最常用的序列相似性查询
39、工具是(AB )7、下列哪些分子类型属于非蛋白质编码区(ABCDE )A.内含子 B.卫星 DNA C.伪基因 D.启动子 E.增强子 8、卫星 DNA 的多态性是由(D )所决定的。A.DNA 点突变个数 B.限制性内切酶识别序列个数不同 C.DNA 的二级结构不同 D.重复单位不同 E重复次数不同 9、真核基因组特点包括(ABCDE )A.基因组大,巨大的非编码序列,重复序列占了绝大部分 B.基因结构复杂,无显著长度的开放阅读框 C.存在可变剪接 D.CpG 岛 E.等值区 10、20 世纪三大著名计划包括(ACE )A.阿波罗登月计划 B.卫星计划 D.肿瘤计划 E.曼哈顿原子弹计划 简
40、答题 套件的 blastn、blastp、blastx、tblastn 和 tblastx 子工具的用途什么 答:blastn 是将给定的核酸序列与核酸数据库中的序列进行比较;Blastp 是使用蛋白质序列与蛋白质数据库中的序列进行比较,可以寻找较远的关系;Blastx 将给定的核酸序列按照六种阅读框架将其翻译成蛋白质与蛋白质数据库中的序列进行比对,对分析新序列和 EST 很有用;Tblastn 将给定的氨基酸序列与核酸数据库中的序列(双链)按不同的阅读框进行比对,对于寻找数据库中序列没有标注的新编码区很有用;Tblastx 只在特殊情况下使用,它将DNA 被检索的序列和核酸序列数据库中的序列
41、按不同的阅读框全部翻译成蛋白质序列,然后进行蛋白质序列比对。P97 2.序列的相似性与同源性有什么区别与联系 答:相似性是指序列之间相关的一种量度,两序列的的相似性可以基于序列的一致性的百分比;而同源性是指序列所代表的物种具有共同的祖先,强调进化上的亲缘关系。P147 3.美国国家生物技术信息中心(NCBI)的主要工作是什么请列举 3 个以上Entrez 系统可以检索的数据库。(NCBI 维护的数据库)NCBI 的主要工作是在分子水平上应用数学和计算机科学的方法研究基础生物,医学问题。为科学界开发,维护和分享一系列的生物信息数据库;开发和促进生物信息学数据库,数据的储存,交换以及生物学命名规则
42、的标准化。维护的主要数据库包括 答:PubMed、核酸序列数据库 GenBank、PROW、三维蛋白质结构分子模型数据库 MMDB。4.简述 BLAST 搜索的算法思想。答:BLAST 是一种局部最优比对搜索算法,将所查询的序列打断成许多小序列片段,然后小序列逐步与数据库中的序列进行比对,这些小片段被叫做字”word”;当一定长度的的字(W)与检索序列的比对达到一个指定的最低分(T)后,初始比对就结束了;一个序列的匹配度由各部分匹配分数的总和决定,获得高分的序列叫做高分匹配片段(HSP),程序将最好的 HSP 双向扩展进行比对,直到序列结束或者不再具有生物学显著性,最后所得到的 序列是那些在整
43、体上具有最高分的序列,即,最高分匹配片段(MSP),这样,BLAST既保持了整体的运算速度,也维持了比对的精度。P95 5.什么是物种的标记序列 答:指物种特有的一段核苷酸序列。可以通过相似性查询,得到某一序列在数据库中的某一物种中反复出现,且在其他物种中没有的明显相似的序列。6.什么是多序列比对的累进算法(三个步骤)答:第一,所有的序列之间逐一比对(双重比对);第二,生成一个系统树图,将序列按相似性大致分组;第三,使用系统树图作为引导,产 生出最终的多序列比对结果。P52 7.简述构建进化树的步骤,每一步列举 1-2 种使用的软件或统计学方法。答:(1)多序列比对:Clustal W(2)校
44、对比对结果:BIOEDIT(3)建树:MEGA(4)评估系统发育信号和进化树的牢固度:自举法(Bootstrap)8.简述除权配对法(UPGMA)的算法思想。答:通过两两比对聚类的方法进行,在开始时,每个序列分为一类,分别作为一个树枝的生长点,然后将最近的两序列合并,从而定义出一个节点,将这个过程不断的重复,直到所有的序列都被加入,最后得到一棵进化树。9.简述邻接法(NJ)构树的算法思想。答:邻接法的思想不仅仅计算最小两两比对距离,还对整个树的长度进行最小化,从而对树的拓扑结构进行限制。这种算法由一棵星状树开始,所有的物种都从一个中心节点出发,然后通过计算最小分支长度的和相继寻找到近邻的两个序
45、列,每一轮过程中考虑所有可能的序列对,把能使树的整个分支长度最小的序列对一组,从而产生新的距离矩阵,直到寻找所有的近邻序列。P117 10.简述最大简约法(MP)的算法思想。P68 答:是一种基于离散特征的进化树算法。生物演化应该遵循简约性原则,所需变异次数最少(演化步数最少)的演化树可能为最符合自然情况的系统树。在具体的操作中,分为非加权最大简约分析(或称为同等加权)和加权最大简约分析,后者是根据性状本身的演化规律(比如 DNA 不同位点进化速率不同)而对其进行不同的加权处理。P120 11.简述最大似然法(ML)的算法思想。P69 答:是一种基于离散特征的进化树算法。该法首先选择一个合适的
46、进化模型,然后对所有可能的进化树进行评估,通过对每个进化位点的替代分配一个概率,最后找出概率最大的进化树。P122 12.UPGMA 构树法不精确的原因是什么 P69 答:由个于 UPGMA 假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟;这种算法当所构建的进化树的序列进化速率明显不一致时,得到的进化树相对来说不准确的。13.在 MEGA2 软件中,提供了哪些碱基替换距离模型,试列举其中 3 种,解释其含义。答:碱基替换模型包括,differences、p-distance、Jukes-Cantor distance、T ajima-Nei distance、Kim
47、ur 2-parameter distance、Tamura 3-parameter distance、Tamura-Nei distance p-distance:表示有差异的核苷酸位点在序列中所占比例,将有差异的核苷酸位点数除已经比对的总位点数就可以得到 Jukes-Cantor:模型假设 A T C G 的替换速率是一致的,然后给出两个序列核苷酸替换数的最大似然估计 Kimura 2-parameter:模型考虑到了转换很颠换队多重击中的影响,但假设整个序列中 4 钟核苷酸的频率是相同哈德在不同位点上的碱基替换频率是相同的。14.试述 DNA 序列分析的流程及代表性分析工具。(1)寻找重
48、复元件:RepeatMasker(2)同源性检索确定是否存在已知基因:BLASTn(3)从头开始方法预测基因:Genscan(4)分析各种调控序列:TRES/DRAGON PROMOTOR FINDER(5)CpG 岛:CpGPlot 代表性工具:ORF Finder、BLASTn、tBLASTx、BLASTx、Gene Wise 15.如何用 BLAST 发现新基因;答:从一个一直蛋白质序列开始,通过 tBLASTn 工具搜索一个 DNA 数据库,可以找到相应的匹配,如与 DNA 编码的已知蛋白质的匹配或者与 DNA 编码的相关蛋白质的匹配。然后通过 BLASTx 或 BLASTp 在蛋白质
49、数据库中搜索 DNA或蛋白质序列来“确定”一个新基因。16.试述 SCOP 蛋白质分类方案;答:SCOP 将 PDB 数据库中的蛋白质按传统分类方法分成 型、型、/型、+型,并将多结构域蛋白、膜蛋白和细胞表面蛋白、N 蛋白单独分类,一共分成 7 种类型,并在此基础上,按折叠类型、超家族、家族三个层次逐级分类。对于具有不同种属来源的同源蛋白家族,SCOP 数据库按照种属名称将它们分成若干子类,一直到蛋白质分子的亚基。17.试述 SWISS-PROT 中的数据来源。答:(1)从核酸数据库经过翻译推导而 来;(2)从蛋白质数据库 PIR 挑选出合适的数据;(3)从科学文献中摘录;(4)研究人员直接提
50、交的蛋白质序列数据。哪两个部分 答:(1)SP-TrEMBL(SWISS-PROT TrEMBL):包含最终将要集成到 SWISS-PROT的数据,所有的 SP-TrEMBL 序列都已被赋予 SWISS-PROT 的登录号。(2)REM-TrEMBL(REMaining TrEMBL):包括所有不准备放入 SWISS-PROT 的数据,因此这部分数据都没有登录号。19.试述 PSI-BLAST 搜 索的 5 个步骤。答:1 选择待查序列(query)和蛋白质数据库;2 PSI-BLAST 构建一个多序列比对,然后创建一个序列表谱(profile)又称特定位置打分矩阵(PSSM);3 PSSM