《(本科)9第5章 基因组注释信息分析ppt课件.pptx》由会员分享,可在线阅读,更多相关《(本科)9第5章 基因组注释信息分析ppt课件.pptx(20页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、课程主讲人:(本科)9-第5章 基因组注释-信息分析ppt课件 1) 内含子组成特点内含子组成特点 2) 外显子组成特点外显子组成特点 3) 结构域结构域 4) 同源查询同源查询常用的基因注常用的基因注释方法如下:释方法如下:1)外显子分布外显子分布;2)内含子组成内含子组成 特特点点;3)密码子使用密码子使用 偏好偏好;4)同源性查询同源性查询;5)转录表达产转录表达产 物比对物比对;6)保守的蛋白保守的蛋白 结构基序结构基序;7)加尾序列加尾序列。1) 外显子的组成外显子的组成 2) 内含子的组成内含子的组成 3) 碱基的组成规律碱基的组成规律真核生物基因的真核生物基因的内含子内含子具有一
2、些具有一些特征序列:特征序列:1)5剪接剪接供体供体顺序顺序GT和和3受体顺序受体顺序AG; 2)近近3剪接位的一段剪接位的一段富嘧啶富嘧啶区区;3)前体)前体mRNA加工加工所需所需分支点分支点A。内含子三种读框中终止密码比率远高于外显子近一倍内含子三种读框中终止密码比率远高于外显子近一倍(18%10%).1) 摇摆密码子的使用频率或密摇摆密码子的使用频率或密 码子偏爱码子偏爱2) 不含或含有较少的终止密码不含或含有较少的终止密码1 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT1 CCCCCGGTTGCTGACTTG
3、CCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT 180 1802 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT2 CCCCCGGTTGCTGACTTGCCGCGGGAAGGAGGATGAGCAGGCGGTGGAGCCGGACGATCT 115 1151 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT 1 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTC
4、TACAAGT 2402402 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT2 ACGTGGGGAATCTCCCTGGTGACATCAGGGAGAGGGAGGTGGAGGATCTCTTCTACAAGT 175在获得新的在获得新的DNA序列时,通常会将该序列在已有数据库中序列时,通常会将该序列在已有数据库中进行序列比对或查询(进行序列比对或查询(BLAST),用以确定新获得的序列),用以确定新获得的序列与已知的序列之间的关联。与已知的序列之间的关联。这里所列出的两段这里所列出的两段DNA编码序列之间一致性的比例远高于一致
5、性氨基编码序列之间一致性的比例远高于一致性氨基酸的比例。由于密码子的第酸的比例。由于密码子的第3位碱基可位碱基可摇摆摇摆,允许代换允许代换,因此从功能的,因此从功能的意义看意义看, 氨基酸的同源性比氨基酸的同源性比DNA更加重要。更加重要。在查询在查询DNA编码序列同源编码序列同源性时通常更多参考氨基酸顺序一致性性时通常更多参考氨基酸顺序一致性。249 MFN-MAI PFGAGAYAQALNQQQAALMASVAQGG232 I LTSL TLPFS AGAYAQALNQQQTTV I S - -T S GS注注: 红色红色为一致性氨基酸为一致性氨基酸, 蓝色蓝色为可取代氨基酸为可取代氨基酸
6、, 白色白色为趋为趋 异氨基酸异氨基酸. 一致性氨基酸一致性氨基酸百分比百分比: 红色红色氨基酸所占的比例氨基酸所占的比例。相似性氨基酸相似性氨基酸百分比百分比: 红色红色和和蓝色蓝色氨基酸相加所占的比例氨基酸相加所占的比例。注意:注意:同源性同源性不能用百分比表示!不能用百分比表示!只有只有“是是”或或“否否”。1) 1) 任何基因编码的蛋白质都由一些在高级结构任何基因编码的蛋白质都由一些在高级结构 水平具有特征性的功能域组成水平具有特征性的功能域组成, , 如信号肽如信号肽, , 受体区受体区, , 激酶区激酶区, DNA, DNA或或RNARNA结合域等。结合域等。2) 2) 功能域功能
7、域具有很强的保守性具有很强的保守性, , 关键的氨基酸组关键的氨基酸组 成及其排列顺序是成及其排列顺序是相当保守的相当保守的, ,是鉴定基因功是鉴定基因功 能的主要依据。能的主要依据。. .3) 3) 功能域功能域是目前是目前注释软件注释软件确定确定基因功能基因功能的主要的主要 内容之一。内容之一。已知动植已知动植物中绝大物中绝大多数含有多数含有亮氨酸重亮氨酸重复区复区(LRR)的的蛋白质均蛋白质均可归类于可归类于跨膜信号跨膜信号传导蛋白传导蛋白受体受体.GXH1322075迄今为止迄今为止国际上还没有一个普遍公认的适合所有生物种国际上还没有一个普遍公认的适合所有生物种属的基因命名规则属的基因
8、命名规则。由于历史。由于历史, , 习惯以及其它各种原习惯以及其它各种原因因, , 基因命名中常常存在许多同名歧义基因命名中常常存在许多同名歧义, , 或者同义歧或者同义歧名的现象名的现象. . 许多基因在生物的不同发育阶段具有不同许多基因在生物的不同发育阶段具有不同的功能的功能, , 这一点也给准确的基因命名造成了实际困难这一点也给准确的基因命名造成了实际困难. . 很多科学家都希望基因的命名标准化,曾经在很多科学家都希望基因的命名标准化,曾经在19971997年年和和19991999年举行了两次有关基因命名的研讨会,但因研年举行了两次有关基因命名的研讨会,但因研究领域的不同以及基因命名本身
9、存在的复杂问题究领域的不同以及基因命名本身存在的复杂问题, , 无无法达成一个统一的意见。法达成一个统一的意见。目前不同生物种属的基因命目前不同生物种属的基因命名规则仍由各相关领域的专家讨论分别制定名规则仍由各相关领域的专家讨论分别制定, , 然后推然后推荐给研究者选择采用荐给研究者选择采用. . 物物 种种 基因简写基因简写 蛋白质简写蛋白质简写- -人类(人类(Homo sapiens) SHH SHH小鼠(小鼠(Mus musculus) SHH SHH原鸡(原鸡(Gallus gallus) SHH SHH安乐蜥(安乐蜥(Anolis carolinensis) shh SHH爪蟾爪蟾
10、 (Xenopus laevis) shh Shh斑马鱼斑马鱼(Danio rerio) shh Shh-注:注:SHH, 基因基因sonic hedgehog的简称。的简称。 在命名在命名基因符号基因符号(symbol)时,要求)时,要求尽可能简短尽可能简短,通常在,通常在3-8个个 字母范围。字母范围。 如编码如编码cytotoxic T-lymphocyte-associated protein 4 的的基因简称基因简称, 斜体,斜体,CTLA4;蛋白质简称,蛋白质简称,正体,正体,CTLA4。 Known gene: 与人类与人类已知已知cDNA和蛋白质顺序同源的基因和蛋白质顺序同源的
11、基因.Novel gene: 与脊椎动物与脊椎动物cDNA或其它物种蛋白质或其它物种蛋白质同源同源的的 基因基因.Novel transcripts: 与与novel 基因相似基因相似, 但但缺少明确的缺少明确的ORF.Putative gene: 有有同源同源EST支持支持, 但缺少但缺少cDNA或或ORF(假假 定基因定基因).Predicted gene: 数据库中至少数据库中至少有一个外显子支持有一个外显子支持, 但缺但缺 少少cDNA或明确的或明确的ORF. (预测基因预测基因)Pseudogene(假基因假基因): 与已知蛋白质有与已知蛋白质有50%的同源性的同源性, 但但 cDN
12、A残缺残缺, 在其它位点存在正常的同源基因的顺序在其它位点存在正常的同源基因的顺序.Nature 414:865-871, 2001Homology(同源的同源的): 与某一蛋白质氨基酸顺序完全一致或相当一致的基因, 有两种水平: 一致的命名(same name); 可能的(putative protein)或类似的(-like protein)命名.Unknown(未知的未知的): 具有具有全长全长cDNA或或EST(覆盖几覆盖几乎整个基因范围乎整个基因范围)支持支持但但没有任何同源蛋白质没有任何同源蛋白质记录记录的基因的基因.hypothetical (假定的假定的): 由一个或几个注释软件认由一个或几个注释软件认可的蛋白质可的蛋白质, 但但缺少缺少cDNA或或EST支持支持的基因的基因.