《核酸序列分析精选课件.ppt》由会员分享,可在线阅读,更多相关《核酸序列分析精选课件.ppt(80页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、关于核酸序列分析第一页,本课件共有80页一、分子质量、碱基组成、碱基分布二、序列变换三、限制性酶切分析第一节 核酸序列的基本分析(DNAMAN软件的应用)第二页,本课件共有80页一、核酸测序中载体序列的识别与去除1、利用NCBI的数据库许多数据库中收集了常用的测序载体序列。如果用户面对的是大批量序列的分析任务,则需要将这些载体数据库下载后进行分析。使用Blast程序对此类数据库进行相似性分析即可得知目的序列中是否含有载体序列。(http:/www.ncbi.nlm.nih.gov/VecScreen/VecScreen.html)。如果是,那么在对测序数据进行进一步分析之前必须将载体序列去除。
2、(Example)第二节 核酸序列高级分析(数据库及软件的使用)第三页,本课件共有80页2、利用SequencherTM软件美国基因编码公司(Gene Codes Corp.)所开发的SequencherTM软件在识别载体序列方面具有很强的功能。SequencherTM软件被多个公司用于测序数据的分析和管理。该公司同时提供该软件的演示版,可通过访问其网址获得(http:/ sequence tag,EST)和较长的cDNA序列。然而在大多数情况下,人们只能获得EST序列或较长的cDNA序列。全长cDNA序列的获得一直是制约新基因发现的瓶颈。第十一页,本课件共有80页n同时,很多实验室采用差异显
3、示PCR(different display PCR,DD-PCR)、代表性差异分析(representational difference analysis,RDA)等技术发现了大量具有潜在应用价值的新基因片段,也同时面临着全长cDNA序列难以获得的问题。在实验方面,或者通过筛选cDNA文库,或者通过RACE实验等去获得新基因的全长cDNA序列,均需要投入较大的精力。第十二页,本课件共有80页n而在另一方面,公共数据库如GenBank/EMBL已经拥有了大量的表达序列标签(http:/www.ncbi.nlm.nih.gov/dbEST)。这些EST序列在很多时候和研究者所感兴趣的基因序列相
4、重叠,可能代表了同一条 cDNA序列。因而,从生物信息学的原理出发,基于公共数据库中的EST序列或者较长cDNA序列对新获得的EST序列进行电子延伸,就成为很多研究者关注的焦点。第十三页,本课件共有80页n这一方案实际上来自于最初的克隆测序过程。例如,在对一个长为1.5kb的序列进行测序过程中,如果每次测序只能获得500bp的有效序列,则至少需进行4次测序,而且所有测序结果的末端必须相互重叠,以便根据末端重叠序列将该4次测序所获得的序列片段进行组装,才能获得全长序列。1500kb500kb500kb500kb500kb第十四页,本课件共有80页2、基本过程(1)将待分析的核酸序列(称为种子序列
5、)采用Blast软件搜索GenBank的EST数据库,选择与种子序列具有较高同源性的EST序列(一般要求在重叠40个碱基范围内有95%以上有同源性)(称为匹配序列)(2)将匹配序列和种子序列装配产生新生序列,此过程称为片段重叠群分析(contig analysis)(3)然后再以此新生序列作为种子序列重复上述过程,直至没有新的匹配序列入选,从而生成最后的新生序列,作为对种子序列的延伸产物。第十五页,本课件共有80页3、利用UniGene数据库进行电子延伸利用blastn程序,选择数据库“EST”进行序列同源性检索。选择同源性比分最高的一条EST序列,点击右边的UniGene超链接,将参与形成U
6、niGene Cluster的所有核酸序列下载到本地,利用SequencherTM软件或者其他的序列装配软件进行组装,形成较长的新生序列。第十六页,本课件共有80页第十七页,本课件共有80页第十八页,本课件共有80页第十九页,本课件共有80页第二十页,本课件共有80页第二十一页,本课件共有80页4、存在的不足无法直接通过此种方法获得多种剪切形式之间的差异,真正的cDNA序列还需通过对延伸后的序列设计全长引物,经过反转录PCR(RT-PCR)即可证实是否对原序列的有效延伸。第二十二页,本课件共有80页三、基因的电子表达谱分析nGenBank/EMBL等数据库在其EST数据库中积累了大量序列的基因
7、表达信息。n电子表达谱分析原理是:将待分析序列与EST数据库进行序列对库检索,获得与待分析核酸序列具有高同源性的EST序列的UniGene编号后,就可通过参与形成UniGene Cluster的序列的组织/细胞来源来间接地反映分析序列在何种组织中表达体现在字段cDNA Sources中。第二十三页,本课件共有80页四、核酸序列的电子基因定位分析对核酸序列进行电子基因定位(即基因的染色体定位),通过所定位区带的相邻基因簇,间接地提示该基因的功能,是核酸序列分析的一个重要方面。进行电子基因定位策略是:利用基因组序列定位A、将待分析序列进行对基因组数据库的同源性检索B、得到确定基因组序列后点击“Ge
8、nome View”观察其基因组结构C、点击用红色标记所指示的染色体列表中选择所对应的染色体及区域。第二十四页,本课件共有80页五、cDNA对应的基因组序列分析nEST和cDNA的基因组序列查询对于了解该基因组结构包括extron/intron结构、转录调控区域以及何种转录因子对该基因的表达进行调控等均十分重要。同时,如果对所获得cDNA不能完全确定的情况下,也可参考基因组的序列进行校正。在人类基因组计划推动下,NCBI、EMBL、和Sanger Centre均提供了基因组序列的同源性分析途径。第二十五页,本课件共有80页1、通过从NCBI查询全部基因组数据库进行序列的分析联网至http:/w
9、ww.ncbi.nlm.nih.gov/genome/seq/HsBlast.html可直接对已经公布的基因组序列进行查询。2、通过从Sanger中心查询全部基因组数据库进行序列的分析http:/www.sanger.ac.uk/cgi-bin/blast/submitblast/hgp第二十六页,本课件共有80页六、基于核酸序列对齐分析的功能预测n对库比较、多序列以及序列之间的两两比较、同源性比较及结果的显著性评价、分子进化树的绘制。第二十七页,本课件共有80页七、可读框架分析n原理Kozak序列:AUG上游的第三个核苷酸,常常是嘌呤,且多数是A;紧跟在AUG后面的核苷酸,常常也是嘌呤,但多
10、数情况下是G。AUG附近的核苷酸序列中以ANNAUGN和GNNAUGPu(T/G)的利用率最高,而没有起始功能AUG附近的核苷酸序列则无此保守性。nhttp:/www.ncbi.nlm.nih.gov/gorf/gorf.html第二十八页,本课件共有80页第二十九页,本课件共有80页第三十页,本课件共有80页第三十一页,本课件共有80页第三十二页,本课件共有80页八、基因组序列中的编码区/内含子结构分析n真核基因外显子-内含子连接区外显子-内含子连接区就是指外显子和内含子的交界,又称边界序列。重要特征:(1)内含子的两端序列之间没有广泛的同源性,不能互补。不能通过形成发卡式二级结构。(2)外
11、显子-内含子连接区序列很短,但高度保守。第三十三页,本课件共有80页nGT-AG法则:几乎在所有高等真核生物基因中每个内含子5端起始的两个碱基都是GT,3端最后两个碱基总是AG。n目前最好并最流行的软件是GRAIL(Gene Recognition Analysis Internet Link)套装软件http:/compbio.ornl.gov/Grail-1.3/。第三十四页,本课件共有80页第三十五页,本课件共有80页第三十六页,本课件共有80页第三十七页,本课件共有80页n也可以利用Gene Finder软件(http:/www.bioscience.org/urllists/gene
12、find.htm)进行基因组序列的内含子/外显子分析。第三十八页,本课件共有80页第三十九页,本课件共有80页九、基因启动子、增强子、转录因子结合位点分析n1、通过EBI匿名FTP获得数据库n2、联网至http:/www.fruitfly.org/seq_tools/promoter.html可对基因组序列进行启动子分析。第四十页,本课件共有80页十、重复序列分析n1、RepBase真核生物DNA中重复序列数据库,由Genetic Information Research Institute,GIRI维护,其网址为:http:/www.girinst.org/server/RepBase/。n
13、2、著名的RepeatMasker程序即基于此进行工作(http:/ftp.genome.washington.edu/RM/RepeatMasker.html)。第四十一页,本课件共有80页第三节 PCR引物设计第四十二页,本课件共有80页n一、基本过程PCR是在试管内有DNA模版、引物和四种脱氧核糖核苷酸存在条件下,由DNA聚合酶催化的DNA合成反应。基本反应过程分为三步:1、变性 变性是指通过加热使DNA双链间的氢键断裂,形成两条单链的过程。加热到9295可使一切复杂的DNA都达到变性的目的。2、退火 退火是指在温度降低的过程中,DNA的复性过程,即变性后的两条单链在碱基互补基础上形成氢
14、键,结合成双链。第四十三页,本课件共有80页n3、延伸 从引物的3一端开始,沿DNA模版,由DNA聚合酶催化的DNA新链的合成反应。n上述三步反应构成一个循环。在下一个循环中,前一循环的产物再变性为两条单链作为模版,这样往复循环,即可使靶序列大大扩增。第四十四页,本课件共有80页二、PCR的引物n1、引物长度 以1530个碱基为宜。过短会影响到扩增的特异性。n若扩增产物500碱基,引物长度为1618碱基即可。若扩增45kb的大片段,引物最好不要少于24个碱基。n2、引物二聚体及二级结构尽量避免在引物分子之间或引物分子内部有过多的互补碱基。n如果很难完全避免引物分子内二级结构,也要尽可能地避免在
15、引物3一端出现二级结构。3一端有二级结构的引物不能有效引发延伸。第四十五页,本课件共有80页n3、碱基分布的均衡性 避免嘌呤或嘧啶的堆积,避免连续出现4个以上的同一碱基。各种碱基最好分布均匀。n4、引物在模版上结合位点的唯一性保证扩增产物的特异性。第四十六页,本课件共有80页n5、碱基配对的严格性n一般要求引物与模版间的碱基能完全配对n特殊实验目的,部分碱基不配对是许可的。但要求引物3一端必须与模版配对。如:在5一端引入酶切位点。点突变。设计简并引物。第四十七页,本课件共有80页n6、引物的Tm值(解链温度)在允许范围内,选择较高的温度,可大大减少引物和模版之间非特异性结合,从而提高PCR的特
16、异性。n引物容易复性到模版上的温度是Tm值减去1525,但为了提高PCR的特异性,在实际应用中常常将退火温度设定为Tm值减去515。n在实验之初,宁可选用较低的退火温度,首先得到有PCR合成产物之后再逐步提高退火温度,以提高反应的特异性。n两条引物的Tm尽可能相等或接近,最好相差不超过3。第四十八页,本课件共有80页n7、引物的内部稳定性引物的5端互补序列应该是相对稳定结构,而3端应在碱基配对的情况下尽可能为低稳定结构。3端应该选用A、T少选用G、C,这种引物有更高的引发效率,且能有效地避免假引发。第四十九页,本课件共有80页二、引物设计n软件的引物设计功能主要体现在:n1、引物分析评价功能,
17、以“Oligo 6”最优秀。n2、引物的自动搜索功能。以“Primer Premier”为最强且方便使用n在自动搜索的基础上还要辅以人工分析。引物设计软件以“Premier”进行自动搜索,“Oligo”进行分析评价,如此可快速设计出成功率很高的引物。第五十页,本课件共有80页引物设计引物设计限制性内切限制性内切酶位点分析酶位点分析DNA基元基元(motif)查找查找同源性分析同源性分析第五十一页,本课件共有80页n设计简并引物n简并引物:根据一段氨基酸序列反推到DNA来设计引物,由于遗传密码的简并性,会遇到部分碱基的不确定性。设计的引物实际上是多个序列的混和物。第五十二页,本课件共有80页n软
18、件共给出八种生物亚结构的不同遗传密码规则:n纤毛虫大核(Ciliate Macronuclear)n无脊椎动物线粒体(Invertebrate Mitochondrion)n支原体(Mycoplasma)n植物线粒体(Plant Mitochondrion)n原生动物线粒体(Protozoan Mitochondrion)n一般标准(Standard)n脊椎动物线粒体(Vertebrate Mitochondrion)n酵母线粒体(Yeast Mitochondrion)第五十三页,本课件共有80页第五十四页,本课件共有80页第五十五页,本课件共有80页第五十六页,本课件共有80页第五十七页,
19、本课件共有80页第五十八页,本课件共有80页第五十九页,本课件共有80页PCR模板模板及产物位及产物位置置所选的所选的上下游上下游引物的引物的一些性一些性质质四种重四种重要指标要指标的分析的分析引物的最佳引物的最佳退火温度退火温度对引物进行对引物进行修饰编辑修饰编辑第六十页,本课件共有80页n 此外还要注意:n不同的引物3端末位碱基在错配位置导致不同的扩增效率,末位碱基为A的错配效率明显高于其他3个碱基,因此应当避免在引物的3端使用碱基A。第六十一页,本课件共有80页 G值是指值是指DNA双链形成所需的自由能,反映了双链形成所需的自由能,反映了双链结构内部碱基对的相对稳定性。应当选用双链结构内
20、部碱基对的相对稳定性。应当选用3端端G值较低(绝对值不超过值较低(绝对值不超过9),而),而5端和中端和中间的间的 G值相对较高的引物。引物二聚体及发值相对较高的引物。引物二聚体及发夹结构的能值过高(超过夹结构的能值过高(超过4.5kcal/mol)易导)易导致产生引物二聚体带。致产生引物二聚体带。邻近邻近6至至7个碱基组成的亚单位在个碱基组成的亚单位在一个指定数据库文件中的出现频一个指定数据库文件中的出现频率。该频率高则可增加错误引发率。该频率高则可增加错误引发的可能性。选取引物时,宜选用的可能性。选取引物时,宜选用3端端Frq值相对较低的片段。值相对较低的片段。第六十二页,本课件共有80页
21、n选好上下游引物后检查:n1、引物二聚体尤其是3端二聚体形成的可能性。n2、发夹结构(hairpin);与二聚体相同,发夹结构的能值越低越好。一般来说,这两项结构的能值以不超过4.5为好n3、GC含量以45-55为宜。n4、如果模板不是基因组DNA,而是特定模板序列,最好还进行False priming site的检测。第六十三页,本课件共有80页按按Alt+P键弹出键弹出PCR窗口,其中总结性地显示该引物的窗口,其中总结性地显示该引物的位置、产物大小、位置、产物大小、Tm值等参数,最有用的是还给出值等参数,最有用的是还给出了推荐的最佳退火温度和简单的评价。了推荐的最佳退火温度和简单的评价。第
22、六十四页,本课件共有80页第四节 序列提交及克隆索取一、向数据库中提交核酸序列 1、向EMBL数据库中提交序列2、GenBank数据库中核酸序列的提交二、从IMAGE协作组索取相关克隆第六十五页,本课件共有80页一、向数据库中提交核酸序列1、向EMBL数据库中提交序列向EMBL数据库中提交序列的网络表格可参见http:/www.ebi.ac.uk/subs/emblsubs.html 第六十六页,本课件共有80页第六十七页,本课件共有80页点点击击第六十八页,本课件共有80页第六十九页,本课件共有80页nGenBank数据库中核酸序列的提交可联网进行也可用Sequin软件制作好序列提交文件,向NCBI发送E-mail进行提交。gb-subncbi.nlm.nih.gov 2、GenBank数据库中核酸序列的提交第七十页,本课件共有80页第七十一页,本课件共有80页第七十二页,本课件共有80页第七十三页,本课件共有80页第七十四页,本课件共有80页第七十五页,本课件共有80页第七十六页,本课件共有80页第七十七页,本课件共有80页第七十八页,本课件共有80页第七十九页,本课件共有80页感谢大家观看第八十页,本课件共有80页