生物信息学9序列分析课件.ppt-淘文阁

资源描述

《生物信息学9序列分析课件.ppt》由会员分享，可在线阅读，更多相关《生物信息学9序列分析课件.ppt（43页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、PPTPPT文档演模板文档演模板 Office Office PPTPPT生物信息学生物信息学9序列分析序列分析2023/5/26生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT一、碱基组成一、碱基组成 DNA序列一个显而易见的特征是四种碱基类型的分布。尽管四种碱基的频率相等时对数学模型的建立可能是方便的，但几乎所有的研究都证明碱基是以不同频率分布的。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT 表1包含了9个完整DNA分子序列的资料，表2的数据来自两个胎儿球蛋白基因(Gr和Ar)，每个基因具有三个

2、外显子和两个内含子(shen等1981)。这两个例子说明序列内和序列间碱基具有不同的频率。在基因每一侧的500 个任意碱基区域被称为“侧翼”，基因间区域是指两个基因间的其余序列。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT表1 九种完整DNA序列的碱基组成生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT表2 人类胎儿球蛋白基因不同区段的碱基组成生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT二碱基相邻频率二碱基相邻频率分析DNA序列的主要困难之一是

3、碱基相邻的频率不是独立的。碱基相邻的频率一般不等于单个碱基频率的乘积例：例：鸡血红蛋白鸡血红蛋白链的链的mRNA编码区的编码区的438个碱基个碱基生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT图1 鸡球蛋白基因编码区的DNA序列(GenBank：CHKHBBM，记录号J00860)生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT表3 图1鸡球蛋白基因序列的相邻碱基分布生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT在编码区，存在某种约束来限制DNA序列编

4、码氨基酸。在密码子水平上，这一约束与碱基相邻频率有关。表4列出了遗传密码和图1序列中各密码子数量。尽管数目很小，难以作出有力的统计结论，但编码同一氨基酸的不同密码子(同义密码子)好像不是等同存在的。这种密码子偏倚必定与两碱基相邻频率水平有关。表4还清楚地表明，由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型，因而对第3位置上碱基的约束要比第 2位碱基小得多。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT表4 64种可能的碱基三联体密码子及相应的氨基酸数（据图1序列）生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Offi

5、ce PPTPPT相邻碱基之间的关联将导致更远碱基相邻碱基之间的关联将导致更远碱基之间的关联，这些关联延伸距离的估计之间的关联，这些关联延伸距离的估计可以从马尔科夫链可以从马尔科夫链(Markov chain)理论理论得到得到(Javare和和Giddings，1989)生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT三同向重复序列分析三同向重复序列分析除了分析整个序列碱基关联程度的特征外，我们常对寻找同向重复序列(direct repeats)之类的问题感兴趣。Karlin等(1983)给出了完成这一分析的有效算法。该法采用由特定的几组碱基字母

6、组成的不同亚序列或称为字码(word)。只需要对整个序列搜索一次。给一碱基赋以值,例如A、C、G、T的值为0、1、2、3。由X1、X2、Xk 共k个字母组成的每一种不同的字码按：计算字码值。这些值的取值范围为1到4k生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT例如：5字码TGACC的值为1+344+243+042+141+140=459。可先从低k值的字码开始搜索。记录序列中每一个位置k字码的字码值。只有在发现k字码长度重复的那些位置考虑进行长度大于k的字码搜索。序列TGGAAATAAAACGTAAGTAG中所有碱基2字码(k=2)的初始位置和

7、字码值。对于完全重复、长度大于2的同向重复或亚序列的搜索可只限于2字码重复的初始位置。在本例中只有4个重复的2碱基重复序列。例如，在位置4、5、8、9、10和15均发现了字码值为1的碱基重复序列。从有重复的2碱基为起点的3字码值中发现字码值为1、45和49的序列有重复；以每一重复的3碱基为起点的4字码搜索未能发现更长的重复序列。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT表5 序列TGGAAATAAAACGTAAGTAG的3字码值和位置(Karlin,1983)生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office P

8、PTPPT四、四、RNARNA二级结构预测二级结构预测尽管现有一些RNA折叠程序可以预测RNA二级结构，但这类分析仍然是一门艺术。RNA折叠有助于找出RNA分子中可能的稳定茎区，但对给定的RNA分子来说，这一结果的生物学意义生物学意义究竟有多大，还是一个未知数。即使有此局限性，二级结构的预测还是有助于找出mRNA控制区以及RNA分子中可能形成稳定折叠结构的区段。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT拟南芥phyA部份RNA生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT生物信息学9序列分析P

9、PTPPT文档演模板文档演模板 Office Office PPTPPT五、从序列中寻找基因五、从序列中寻找基因 1.基因及基因区域预测基因按其功能可分为结构基因结构基因和调控基因调控基因：结构基因可被转录形成mRNA，并进而转译成多肽链；调控基因是指某些可调节控制结构基因表达的基因。在DNA链上，由蛋白质合成的起始密码开始，到终止密码子为止的一个连续编码序列称为一个开放阅读框(Open Reading Frame,ORF)。结构基因多含有插入序列，除了细菌和病毒的DNA中ORF是连续的，包括人类在内的真核生物的大部分结构基因为断裂基因，即其编码序列在DNA分子上是不连续的，或被插入序列隔开

10、。断裂基因被转录成前体mRNA，经过剪切过程，切除其中非编码序列(即内含子)，再将编码序列(即外显子)连接形成成熟mRNA，并翻译成蛋白质。假基因是与功能性基因密切相关的DNA序列，但由于缺失、插入和无义突变失去阅读框而不能编码蛋白质产物。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT一种典型的真核蛋白质编码基因的结构示意图。其编码序列（外显子）是不连续的，被非编码区（内含子）隔断。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT 所谓基因区域预测基因区域预测，一般是指预测DNA序列中编码蛋白质的部分

11、，即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(如TATA盒等)的认识，预测出可能的完整基因生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT 基因区域的预测是一个活跃的研究领域，先后有一大批预测算法和相应程序被提出和应用，其中有的方法对编码序列的预测准确率高达90%以上，而且在敏感性和特异性之间取得了很好的平衡预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测方法中，最早是通过序列核苷酸频率、密码子等特性进行预测预测(如最长如最长ORF法等法等)，随着各

12、类数据库的建立和完善，通过相，随着各类数据库的建立和完善，通过相似性列线比对也可以预测可能的基因。同时，一批新方法也被提似性列线比对也可以预测可能的基因。同时，一批新方法也被提了出来，如隐马尔可夫模型了出来，如隐马尔可夫模型(Hidden Markov Model,HMM)、动、动态规划法态规划法(dynamic programming)、法则系统、法则系统(ruled-based system)、语言学、语言学(linguistic)方法、线性判别分析方法、线性判别分析(Linear Discriminant Analysis,LDA)、决策树、决策树(decision tree)、拼接列、

13、拼接列线线(spliced alingment)、博利叶分析、博利叶分析(Fourier analysis)等。等。下表列出了下表列出了claverie(1997)对部分程序预测基因区域能力的比对部分程序预测基因区域能力的比较结果，表中同时列出了相应算法和程序的网址。较结果，表中同时列出了相应算法和程序的网址。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT目前基因区域预测的各种算法均存在以下2个问题（1）目前算法对基因中的非编码区和基因间序列非编码区和基因间序列不加任何区别，所以预测出的基因仍然是不完全的，对5和3非编译区（UTR，untrans

14、lated region）的预测基本上还是空白；（2）目前大多数算法都是基于已知基因序列基于已知基因序列。如相似性列线比较算法是完全依赖于已知的序列，而象HMM之类的算法都需要对已知的基因结构信号进行学习或训练，由于训练所用的序列毕竟是有限的，所以对那些与学习过的基因结构不太相似的基因，这些算法的预测效果就要大打折扣了要解决以上两个问题，需要对基因结构进行更深入的研究，寻找隐藏在基因不同结构中的内在统计规律。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT2发现基因的一般过程从序列中发现基因可以理解为基因区域预测和基因功能预测2个层次第一步：获取

15、DNA目标序列如果你已有目标序列，可直接进入第2步；可通过PubMed查找你感兴趣的资料；通过GenBank或EMBL等数据库查找目标序列生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT第二步：查找ORF并将目标序列翻译成蛋白质序列利用相应工具，如ORF Finder、Gene feature(Baylor College of Medicine)、GenLang(University of Pennsylvania)等，查找ORF并将DNA序列翻译成蛋白质序列第三步：在数据库中进行序列搜索可以利用BLAST进行ORF核苷酸序列和ORF翻译的

16、蛋白质序列搜索第四步：进行目标序列与搜索得到的相似序列的整体列线(global alignment)虽然第三步已进行局部列线(local alignment)分析，但整体列线有助于进一步加深目标序列的认识生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT进行多序列列线(multiple sequence alignment)和获得列线区段的可视信息。可分别在AMAS(Oxford University)和BOXSHADE(ISREC,Switzerland)等服务器上进行第五步：查找基因家族第六步：查找目标序列中的特定模序分别在Procite、BL

17、OCK、Motif数据库进行profile、模块(block)、模序(motif)检索；对蛋白质序列进行统计分析和有关预测第七步：预测目标序列结构可以利用PredictProtein(EMBL)、NNPREDICT(University of California)等预测目标序列的蛋白质二级结构生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT第八步：获取相关蛋白质的功能信息为了了解目标序列的功能，收集与目标序列和结构相似蛋白质的功能信息非常必要。可利用PubMed进行搜索第九步：把目标序列输入“提醒”服务器如果有与目标序列相似的新序列数据输入

18、数据库，提醒(alert)服务会向你发出通知。可选用Sequence Alerting(EMBL)、Swiss-Shop(Switzerland)等服务器生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT3解读序列(making sense of the sequence)大致有2条途径可以发现基因：(1)基于同源性的方法，包括已知mRNA序列的应用；(2)基因家族和特殊序列间的比较。最初的方法包括利用各种计算机手段分析外显子和其它序列信号，如酶切位点生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT六、基

19、于编码区特性：最长六、基于编码区特性：最长ORFORF法法基因区域或蛋白质编码区的识别，特别是对高等真核生物基因组DNA序列中编码区的识别仍未能实现完全自动化。将每条链按6个读框全部翻译出来，然后找出所有可能的不间断开放阅读框(ORF)往往有助于基因的发现生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类预测基因组的全部编码区或称为开放阅读框的方法概括来说也可以分为三类:一类是基于编码区所具有的独特信号，如始起密码子、终止密码子等；二是基于编码区的碱基组成不同于非编码区，这是由于蛋白

20、质中20种氨基酸出现的概率、每种氨基酸的密码子兼并度和同一种氨基酸的兼并密码子使用频率不同等原因造成的；三是通过同源性比较搜寻蛋白质库或dbEST库寻找编码区。前二类方法主要是利用编码区的特性来寻找，下面对这二类方法做简单描述生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT最长ORF法：在细菌基因组中，蛋白质编码基因从起始密码ATG到终止密码平均有100bp，而300bp长度以上的ORF平均每36Kb才出现一次，所以只要找出序列中最长的ORF(300bp)就能相当准确地预测出基因生物信息学9序列分析PPTPPT文档演模板文档演模板 Office O

21、ffice PPTPPT 利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法：由于内含子的进化不受约束，而外显子则受到选择压力，因此内含子的序列要比外显子更随机。这是目前各种预测程序中被广泛应用的一种方法，如GCG(Genetic Computer Group 研制，一种通用核酸、蛋白质分析软件包)的TestCode、美波士顿大学GeneID和Baylor Medcine College的BCM Gene Finder等程序均利用了这一方法生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT CpG岛：CpG岛(CpG island)一

22、词是用来描述哺乳动物基因组DNA中的一部分序列，其特点是胞嘧啶(C)与鸟嘌呤(G)的总和超过4种碱基总和的50%，即每10个核苷酸约出现一次双核苷酸序列CG。具有这种特点的序列仅占基因组DNA总量的10%左右。从已知的DNA序列统计发现，几乎所有的管家基因(House-Keeping gene)及约占40%的组织特异性基因的5末端含有CpG岛，其序列可能包括基因转录的启动子及第一个外显子。因此，在大规模DNA测序计划中，每发现一个CpG岛，则预示可能在此存在基因。另外，AT含量也可以作为编码区的批示指标之一生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPT

23、PPTDNAstar DNAquest parametersTitle给文件取名。给文件取名。Ruler在文件中加入标尺。在文件中加入标尺。Sequence显示文件中的序列。显示文件中的序列。Patterns Matrix方法的运算参数。方法的运算参数。Signal转录因子结合位点数据库。转录因子结合位点数据库。Type-In Patterns使用键盘输入运算所需的使用键盘输入运算所需的Pattern参数。参数。Repeats Inverted Repeats寻找反向重复序列。寻找反向重复序列。Dyad Repeats寻找寻找Dyad重复和重复和palindromes。Direct Repea

24、ts寻找正向重复序列。寻找正向重复序列。Gene Finding-DNA Finder在打开的在打开的DNA序列中寻序列中寻找指定找指定DNA序列。分别显示正义连和反义连的寻找结果。序列。分别显示正义连和反义连的寻找结果。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPTGene Finding DNA Finder在打开的在打开的DNA序列中寻找指定序列中寻找指定DNA序列。分别显示序列。分别显示正义连和反义连的寻找结果。正义连和反义连的寻找结果。Protein Finder在打开的蛋白质序列中寻找指定在打开的蛋白质序列中寻找指定DNA序列的翻序列

25、的翻译序列。显示结果为全部译序列。显示结果为全部6个读框。个读框。Enzymes-Restriction Map用用DNASTAR酶目录中的酶分析打开的酶目录中的酶分析打开的序列，并以图形方式展示。序列，并以图形方式展示。Coding Prediction Borodovsky用用Borodovskys Markov方法来识别潜在的基因编方法来识别潜在的基因编码区，并以图形方式展示。码区，并以图形方式展示。Starts Stops ORFs根据指定的根据指定的ORFs的最小长度，寻找可能的的最小长度，寻找可能的开放读框，可以选择是否需要起始密码子。读框的启始和中止点分别开放读框，可以选择是否

26、需要起始密码子。读框的启始和中止点分别展示。展示。Local Compositional Complexity根据根据Shannon信息学原理寻信息学原理寻找有基因编码提示信息的区域。找有基因编码提示信息的区域。Base Contents-Base Distribution序列上序列上4种碱基、种碱基、A+T和和G+C的的频率、分布，以及频率、分布，以及AT和和gc分布区域。分布区域。Bent DNA-Bending IndexDNA折叠预测。折叠预测。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT七、PCR(Polymerase chain r

27、eaction)及引物设计利用与DNA模板序列的两端互补的一对寡聚核苷酸引物来扩增一段DNA序列。由一种热稳定的DNA聚合酶经三步反应即变性、引物退火和聚合的循环从两个引物来相对延伸。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPTPCR的基本原理PCR反应条件PCR过程PCR的特点标准的标准的PCRPCR反应体系反应体系4种dNTP混合物各200umol/L引物各10100pmol模板DNA 0.12ugTaq DNA聚合酶 2.5uMg2+1.5mmol/L生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office P

28、PTPPT1234522557294时间（min）温度（）PCR的基本原理PCR反应条件PCR过程PCR的特点适温延伸3高温变性1低温退火2重复13步2530轮目的DNA片段扩增100万倍以上DNA双螺旋DNA单链与引物复性DNA变性形成2条单链子链延伸DNA加倍生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT引物设计：（1)序列应位于高度保守区，与非扩增区无同源序列。（2）引物长度以15-40 bp为宜。（3）碱基尽可能随机分布，G+C占50-60%。（4）引物内部避免形成二级结构。（5）两引物间避免有互补序列。（6）引物3端为关键碱基；5端无严

29、格限制。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT 3 35535 5限制性内切酶的识别序列限制性内切酶的识别序列限制性内切酶的识别序列限制性内切酶的识别序列启动子序列启动子序列启动子序列启动子序列定点突变定点突变定点突变定点突变探针标记探针标记探针标记探针标记生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT实验三实验三核酸序列分析（一）核酸序列分析（一）一、实验内容1、使用DNAstar进行核酸基本信息分析2、ORF分析二、作业1、记录拟南芥phyA NM_100828序列的序列组成2、记录拟

30、南芥phyA NM_100828序列最长的ORF的起止区间。生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT实验四实验四核酸序列分析（二）核酸序列分析（二）一、实验内容1、PCR引物设计2、核酸序列的电子基因定位二、作业1、记录拟南芥phyA NM_100828序列最长的ORF的起止区间。2、记录得分最高的一对引物的碱基组成。3、通过核酸序列的电子基因定位，phyA基因位于拟南芥的那条染色体上？生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT实验五实验五未知蛋白质序列的功能预测未知蛋白质序列的功能预

31、测一、实验内容已知一段蛋白质序列，请对其功能进行预测：MEILCEDNTSLSSIPNSLMQVDGDSGLYRNDFNSRDANSSDASNWTIDGENRTNLSFEGYLPPTCLSILHLQEKNWSALLTAVVIILTIAGNILVIMAVSLEKKLQNATNYFLMSLAIADMLLGFLVMPVSMLTILYGYRWPLPSKLCAVWIYLDVLFSTASIMHLCAISLDRYVAIQNPIHHSRFNSRTKAFLKIIAVWTISVGVSMPIPVFGLQDDSKVFKQGSCLLADDNFVLIGSFVAFFIPLTIMVITYFLTIKSLQKEATLCVSDLSTRAKLASFSFLPQSSLSSEKLFQRSIHREPGSYTGRRTMQSISNEQKACKVLGIVFFLFVVMWCPFFITNIMAVICKESCNEHVIGALLNVFVWIGYLSSAVNPLVYTLFNKTYRSAFSRYIQCQYKENRKPLQLILVNTIPALAYKSSQLQAGQNKDSKEDAEPTDNDCSMVTLGKQQSEETCTDNINTVNEKVSCV生物信息学9序列分析PPTPPT文档演模板文档演模板 Office Office PPTPPT演讲完毕，谢谢听讲!再见，see you again3rew3rew2023/5/26生物信息学9序列分析

展开阅读全文