《生物信息学软件幻灯片.ppt》由会员分享,可在线阅读,更多相关《生物信息学软件幻灯片.ppt(56页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学软件第1页,共56页,编辑于2022年,星期一内容概要生物信息学软件的主要功能简介1.1.分析和处理实验数据和公共数据,加快研究进度,缩分析和处理实验数据和公共数据,加快研究进度,缩短科研时间短科研时间2.2.提示、指导、替代实验操作,利用对实验数据的分提示、指导、替代实验操作,利用对实验数据的分析所得的结论设计下一阶段的实验析所得的结论设计下一阶段的实验3.3.用计算机管理实验数据用计算机管理实验数据4.4.寻找、预测新基因及预测其结构、功能寻找、预测新基因及预测其结构、功能5.5.蛋白高级结构预测蛋白高级结构预测第2页,共56页,编辑于2022年,星期一软件在生物信息学研究中的地
2、位和作用PCR引物及寡核苷酸设计软件核酸序列分析软件蛋白质序列分析软件序列比对软件第3页,共56页,编辑于2022年,星期一软件在生物信息学研究中的地位和作用BioinformaticsComputational Biology算法是算法是 core算法是算法是 key算法是算法是 soul第4页,共56页,编辑于2022年,星期一软件在生物信息学研究中的地位和作用数学家:实际问题的抽象数学家:实际问题的抽象 算法研究算法研究生物学家:实际问题的提出生物学家:实际问题的提出 软件应用软件应用软件专家:算法的工具化软件专家:算法的工具化 软件开发软件开发第5页,共56页,编辑于2022年,星期一
3、 各种序列各种序列:DNA,Protein生物信息学处理软件平台BlastGenscanBlocks生物学家计算生物学模型计算生物学模型/算法算法软件并行软件并行软件:Blast,Phrap,SW市场化市场化各种算法串行后基因组学数据后基因组学数据并行第6页,共56页,编辑于2022年,星期一生物信息学软件的分类生物信息学软件的分类按功能分类:按功能分类:1 1、DNADNA序列分析软件序列分析软件 如:如:DNACLUB,Chromas1.56DNACLUB,Chromas1.562 2、蛋白质序列分析软件、蛋白质序列分析软件 如:如:ANTHEPROTANTHEPROT3 3、RNARNA
4、结构预测软件结构预测软件 如:如:RNAdrawRNAdraw4 4、引物设计软件、引物设计软件 如:如:OligoOligo,Primer Premier Primer Premier5 5、基因芯片软件、基因芯片软件 如:如:Array MakerArray Maker6 6、序列比对软件、序列比对软件 如:如:Clustal XClustal X7 7、亲缘进化树软件、亲缘进化树软件 如:如:PHYLIPPHYLIP和和PAUP,TreeviewPAUP,Treeview8 8、综合软件、综合软件 如:如:GCG(Genetics Computer Group)GCG(Genetics
5、Computer Group)第7页,共56页,编辑于2022年,星期一生物信息学软件的分类生物信息学软件的分类按使用方式分类:按使用方式分类:1 1、本地分析软件、本地分析软件,如如Lasergene,Lasergene,可在可在 Windows Windows或或MacIntoshMacIntosh微机运行,有单机版和网络版微机运行,有单机版和网络版2 2、在线分析软件、在线分析软件 :内联网软件:内联网软件(Genemill,Geneworld,GeneThesaurus)Genemill,Geneworld,GeneThesaurus)和因特网软件和因特网软件(如如BLASTBLAST
6、以及以及CINEMACINEMA)按运行平台分类:按运行平台分类:1 1、UNIX+SGIUNIX+SGI工作站工作站2 2、WindowsWindows或或MacIntosh+PCMacIntosh+PC第8页,共56页,编辑于2022年,星期一生物信息学软件的开发生物信息学软件的开发-P e r lP e r l应用应用具有生物信息学特色的程序语言具有生物信息学特色的程序语言 P e r lP e r lPerlPerl语言的特点:语言的特点:1 1、对过程、档案和文字有很强的处理能力、对过程、档案和文字有很强的处理能力2 2、跨平台、跨平台3 3、解释执行、解释执行4 4、简单易学、简单
7、易学5 5、适用于网络程序开发、适用于网络程序开发bioperl第9页,共56页,编辑于2022年,星期一生物信息学软件的开发生物信息学软件的开发-其他常用的生物信息学软件开发语言其他常用的生物信息学软件开发语言Java Java 跨平台跨平台C+C+、C#C#代码执行效率高代码执行效率高VB VB 简单易学简单易学第10页,共56页,编辑于2022年,星期一生物信息学软件的发展方向生物信息学软件的发展方向高通量高通量海量数据分析海量数据分析并行处理并行处理新算法的提出和应用新算法的提出和应用网络共享解决方案网络共享解决方案第11页,共56页,编辑于2022年,星期一PCRPCR技术的应用技术
8、的应用PCRPCR:研究领域:基因克隆、测序、重组疾病诊断法医鉴定亲子鉴定古生物学研究第12页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-PCRPCR原理原理高温变性低温退火适温延伸第13页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-条件一、估测可能形成的一、估测可能形成的DNADNA双链的稳定性双链的稳定性 (基础)(基础)算法:算法:邻近热力学邻近热力学25G(kcal/mol)例:例:ACGG 和其互补和其互补 TGCC 结合的结合的G:G(ACGG)=G(AC)+G(CG)+G(GG)=-(1.3+3.6+3.1)=-8.0 kcal/mol第14页
9、,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-问题问题二、引物可能出现的二级结构二、引物可能出现的二级结构 (基础)(基础)1 1、发夹结构、发夹结构(Hairpin)自身互补自身互补 2 2、自身二聚体、自身二聚体(Dimer)两个同型引物互补两个同型引物互补3 3、交叉二聚体、交叉二聚体(Cross Dimer)两个异型引物间互补两个异型引物间互补第15页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-规则规则三、引物设计的一般规则三、引物设计的一般规则1 1、引物、引物33末端限制末端限制 3 3端防止连续三个端防止连续三个C C或或G G 3 3端防止互补
10、(防止出现端防止互补(防止出现33端二聚体)端二聚体)2 2、引物互补限制、引物互补限制尽量避免发夹结构、自身二聚体和交叉二聚体出现尽量避免发夹结构、自身二聚体和交叉二聚体出现在不可避免时,按如下原则处理:在不可避免时,按如下原则处理:防防33端互补端互补 其他区域其他区域|G|小 其他区域其他区域|G|大 第16页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-规则规则三、引物设计的一般规则三、引物设计的一般规则3 3、引物长度、引物长度 PCR PCR产物长度产物长度 500bp 500bp 引物长度引物长度 16 16 18 bp 18 bp PCR PCR产物长度产物长度
11、 5kb 5kb 引物长度引物长度 25bp 25bp PCR PCR纪录:纪录:23bp23bp长度引物长度引物 扩增出扩增出 40kb 40kb产物产物 引物长度引物长度 20bp 20bp 产物长度产物长度 1kb 1kb 应考虑使用引物设计软件!应考虑使用引物设计软件!有效长度有效长度:L=2(G+C)+(A+T)L=2(G+C)+(A+T)L38L38第17页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-规则规则三、引物设计的一般规则三、引物设计的一般规则4 4、引物的唯一性、引物的唯一性 防止错配发生防止错配发生错配(或称假引发)错配(或称假引发)False Pri
12、mingFalse Priming将导致产生非专一产物将导致产生非专一产物错配错配第18页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-规则规则三、引物设计的一般规则三、引物设计的一般规则5 5、引物内部稳定性(、引物内部稳定性(Internal StabilityInternal Stability)引物与模板应具有较高的结合能量,这样有利于引物与模板序列引物与模板应具有较高的结合能量,这样有利于引物与模板序列的整合,因此的整合,因此55端与中间段的端与中间段的GG值应较高,而值应较高,而33端端GG值影响值影响DNADNA聚合酶对模板聚合酶对模板DNADNA的解链,过高则不
13、利于这一步骤。的解链,过高则不利于这一步骤。引物的引物的GG值最好呈正弦曲线形状,即值最好呈正弦曲线形状,即55端和中间部分端和中间部分GG值较高,而值较高,而33端端GG值相对较低,且不要超过值相对较低,且不要超过9 9(GG值为值为负值,这里取绝对值),如此则有利于正确引发反应而可负值,这里取绝对值),如此则有利于正确引发反应而可防止错误引发。防止错误引发。第19页,共56页,编辑于2022年,星期一PCR引物及寡核苷酸设计-规则规则三、引物设计的一般规则三、引物设计的一般规则6 6、解链温度(、解链温度(Tm值)值)TmTm值的几种算法值的几种算法:(1)Tm=4(G+C)+2(A+T)
14、(1)Tm=4(G+C)+2(A+T)(2)Tm=4(G+C)+2(A+T)(2)Tm=4(G+C)+2(A+T)引物长度引物长度14 300bp 300bpb.b.选择跨度最大的选择跨度最大的c.c.六个阅读框都要进行扫描六个阅读框都要进行扫描d.d.起始密码子可随物种不同而更改起始密码子可随物种不同而更改第33页,共56页,编辑于2022年,星期一核酸序列分析-基因识别基因识别2 2、TestCode TestCode 测试编码测试编码利用编码区与非编码区密码子选用频率的差异进行编码区的利用编码区与非编码区密码子选用频率的差异进行编码区的统计学鉴别方法:统计学鉴别方法:由于内含子的进化不受
15、约束,而外显子则受到选择压由于内含子的进化不受约束,而外显子则受到选择压力,因此内含子的序列要比外显子更随机。力,因此内含子的序列要比外显子更随机。TestCode 0.74 TestCode 0.95 TestCode 0.95 编码序列编码序列0.74 TestCode 0.95 0.74 TestCode 0.95 不能确定是否编码不能确定是否编码第34页,共56页,编辑于2022年,星期一核酸序列分析-基因识别基因识别3 3、CpG岛岛 搜索搜索脊椎动物绝大多数基因的脊椎动物绝大多数基因的55端都存在端都存在CpG岛岛 CpG岛的判别方法:岛的判别方法:以每以每200200个碱基为单位
16、扫描个碱基为单位扫描DNADNA序列,如某个片序列,如某个片段内胞嘧啶段内胞嘧啶(C)(C)与鸟嘌呤与鸟嘌呤(G)(G)的总和超过的总和超过4 4种碱基种碱基总和的总和的50%50%,即每,即每1010个核苷酸约出现一次双核苷个核苷酸约出现一次双核苷酸序列酸序列CGCG。具有这种特点的序列仅占基因组。具有这种特点的序列仅占基因组DNADNA总量的总量的10%10%左右。左右。第35页,共56页,编辑于2022年,星期一核酸序列分析-核酸序列分析软件核酸序列分析软件常用的核酸序列分析软件:常用的核酸序列分析软件:DNAsis (HITACHI)DNAmanDNAtoolsDNAstar密码子图表
17、密码子图表 密码子使用工具密码子使用工具 CpG岛岛 DNA特征序列查找特征序列查找 DNADNA统计统计 ORFORF查找器查找器 位置碱基频率位置碱基频率 限制位点概要限制位点概要 碱基比例图碱基比例图 测试编码测试编码 翻译翻译 http:/www.bio-http:/www.bio- bombycis在基因数据库里所有序列的DNA统计分析结果DNA统计http:/www.bio- bombycis在基因数据在基因数据库里所有序列的库里所有序列的DNA统统计分析结果计分析结果第37页,共56页,编辑于2022年,星期一蛋白质序列分析-基础概念基础概念氨基酸残基的简并逻辑表示法氨基酸残基的
18、简并逻辑表示法-位置分隔符;位置分隔符;允许此位置为括号内的任何一个残基;允许此位置为括号内的任何一个残基;允许此位置为除了括号内所包括的任何一个残基;允许此位置为除了括号内所包括的任何一个残基;x 代表任何残基;代表任何残基;x(3)代表任何代表任何3 3个氨基酸残基,个氨基酸残基,N-PT-GM-x(2)-ILVMN-P-K-G-H-V,N-T-L-K-G-MN-L-K-G-H-V,N-T-G-K-H-V第38页,共56页,编辑于2022年,星期一蛋白质序列分析-水解酶切点分析水解酶切点分析CalpainLV YMR X,2第39页,共56页,编辑于2022年,星期一蛋白质序列分析-蛋白质
19、基序位点分析蛋白质基序位点分析蛋白质蛋白质motifmotif:如蛋白质的磷酸化位点,糖基化位点等如蛋白质的磷酸化位点,糖基化位点等GLYCO_HORMONE_ALPHA_1C-x-G-C-C-FY-S-R-A-FY-P-T-P蛋白质蛋白质motifmotif数据库数据库 PROSITEhttp:/www.expasy.org/prosite/第40页,共56页,编辑于2022年,星期一蛋白质序列分析-蛋白质特性分析蛋白质特性分析对对2020个氨基酸用物理化学的方法测定相关性质个氨基酸用物理化学的方法测定相关性质如:疏水性如:疏水性第41页,共56页,编辑于2022年,星期一蛋白质序列分析-蛋
20、白质特性分析蛋白质特性分析“开窗开窗”的概念的概念第42页,共56页,编辑于2022年,星期一蛋白质序列分析-蛋白质特性分析蛋白质特性分析Window=1Window=1Window=15Window=15第43页,共56页,编辑于2022年,星期一G P C R蛋白质序列分析-蛋白质特性分析蛋白质特性分析第44页,共56页,编辑于2022年,星期一蛋白质序列分析-蛋白质二级结构预测蛋白质二级结构预测GOR II 法预测结果法预测结果第45页,共56页,编辑于2022年,星期一蛋白质序列分析蛋白质二级结构预测蛋白质二级结构预测五种蛋白质二级结构预测结果比较五种蛋白质二级结构预测结果比较第46页
21、,共56页,编辑于2022年,星期一蛋白质序列分析-蛋白质高级结构预测蛋白质高级结构预测蛋白质高级结构预测蛋白质高级结构预测网址:网址:http:/www.expasy.ch/swissmod/第47页,共56页,编辑于2022年,星期一蛋白质序列分析软件蛋白质序列分析软件专门用于蛋白质序列分析的软件较少专门用于蛋白质序列分析的软件较少大多集成在综合软件之中大多集成在综合软件之中WonderfulWonderful生物信息学系统的蛋白质序列分析功能:生物信息学系统的蛋白质序列分析功能:1 1、蛋白质特性分析、蛋白质特性分析2 2、蛋白质二级结构预测、蛋白质二级结构预测3 3、蛋白质水解酶切位点
22、分析、蛋白质水解酶切位点分析4 4、蛋白质基序位点分析、蛋白质基序位点分析第48页,共56页,编辑于2022年,星期一DNA、蛋白质序列同源分析及进化树构建第49页,共56页,编辑于2022年,星期一相似性与同源性相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量。可进行自身局部比较。如 Dot Plot(点阵序列比较)同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。如 Alignment(同源性分析)第50页,共56页,编辑于2022年,星期一推荐软件相似性分析相似性分析 Peptool Lite同源性分析同源性分析Vector
23、NTI 6-AlignXContig Express-DNA 序列序列片断拼接片断拼接第51页,共56页,编辑于2022年,星期一序列联配(比对)Alignment 软件软件 CLUSTAL X第52页,共56页,编辑于2022年,星期一Vector NTI Suit 同源比较进化树第53页,共56页,编辑于2022年,星期一运行在UNIX平台的序列分析软件GCG(Genetics Computer Group)第54页,共56页,编辑于2022年,星期一中国生物信息学软件1994 1994 军科院军科院 吴加金吴加金 GOLDKEY GOLDKEY2000 2000 基因探索者基因探索者20
24、01 2001 WONDERFUL生物信息学系统生物信息学系统2001 2001 百奥引物设计百奥引物设计2001 2001 百奥计算机辅助疫苗设计百奥计算机辅助疫苗设计第55页,共56页,编辑于2022年,星期一I think we can not get a Nobel prize by what we are doing,but the Nobel prize winners know what we are doing for.Alan walking around the Genome Campus.Cambridge,5 Oct 2000So,I will go to my death with smile.-Alan Bleasby第56页,共56页,编辑于2022年,星期一