《生物信息学第一章绪论.ppt》由会员分享,可在线阅读,更多相关《生物信息学第一章绪论.ppt(22页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学BioinformaticsBioinformatics本章主要内容:本章主要内容:生物信息学学科发展简况生物信息学学科发展简况生物信息学研究内容生物信息学研究内容本课程主要内容本课程主要内容第一章 绪论什么是生物信息学?什么是生物信息学?u 信信息息科科学学领领域域和和生生命命科科学学领领域域的的一一门门新新兴兴的的、应应用用型型交交叉叉学学科科,它它综综合合运运用用生生物物学学、计计算算机机科科学学和和数数学学等等多多方方面面知知识识与与方方法法,来来阐阐明明和和理理解解大大量量生生物物数数据据所所包包含含的的生生物物学学意意义义,并并应应用用于于解解决决生生命命科科学学研研究究
2、和生物技术相关产业中的各种问题。和生物技术相关产业中的各种问题。u生物信息学是信息科学领域和生命科学领域生物信息学是信息科学领域和生命科学领域的一门新兴的、应用型交叉学科。的一门新兴的、应用型交叉学科。u以计算机为主要工具,以大量生物数据库以计算机为主要工具,以大量生物数据库(500)和分析软件为基础)和分析软件为基础 u依赖于因特网依赖于因特网 u为人类揭示生命的奥秘提供了一条新的途径为人类揭示生命的奥秘提供了一条新的途径 生物信息学生物信息学(Bioinformatics)Computational biology Biology with computer 1991DDBJ 核苷酸数据库
3、核苷酸数据库1986GenBank 和和 EMBL核苷酸数据库核苷酸数据库 19821、发展简况、发展简况SWISS-PROT蛋白质数据库蛋白质数据库1986国际人类基因组测序计划启动国际人类基因组测序计划启动1990BLAST分析方法分析方法1990National Center for Biotechnology Information(NCBI)of National Institute of Health(NIH)1988最先收集的是蛋白质序列最先收集的是蛋白质序列 Margret Dayhoff 和她的同事和她的同事 Protein sequence atlas1960sProtei
4、n Information Resource(PIR)u生物信息学学科的迅速发展在生物信息学学科的迅速发展在90年代年代vHuman genome project(HGP)v10年时间完成了人类基因组草图(年时间完成了人类基因组草图(draft sequence)30亿个碱基对亿个碱基对 对对3万多个基因进行了注释万多个基因进行了注释 2、生物信息学基本方法和技术、生物信息学基本方法和技术u建立生物数据库建立生物数据库 v各种公共数据库各种公共数据库 v本地化数据库本地化数据库 u数据库检索数据库检索 v各种数据检索工具的开发和使用各种数据检索工具的开发和使用 Entrez 检索体系检索体系
5、BLAST 检索体系检索体系 u生物大分子序列分析生物大分子序列分析 vHomologous sequence analysis(同源序列分析)(同源序列分析)vMultiple sequence alignment 多序列对位(对齐)多序列对位(对齐)排列排列 vEvolution analysis(进化分析进化分析)Phylogenetic prediction(系谱分析系谱分析)进化进化方式方式分析分析 进化进化位点位点分析分析 分析结果:分析结果:Xa26家族进化模式家族进化模式 分析结果与分析结果与XA26蛋白的功能相蛋白的功能相符合符合 PKv基因组分析基因组分析 序列拼接序列拼接
6、 序列注释序列注释 v基因功能、结构分析基因功能、结构分析 v蛋白质功能、结构分析蛋白质功能、结构分析 v蛋白质三维结构预测蛋白质三维结构预测 v蛋白质修饰蛋白质修饰 u统计模型统计模型 vHidden Markov model(HMM,隐马尔可夫模型),隐马尔可夫模型)基因识别和药物设计基因识别和药物设计 vMaximum likelihood model(最大似然模型)(最大似然模型)序列进化分析序列进化分析 u数学算法数学算法 v自动序列拼接自动序列拼接 v外显子预测外显子预测 v同源序列比较同源序列比较 u收集、整理、储存、加工、发布和收集、整理、储存、加工、发布和分析生物学数据分析生
7、物学数据 3、生物信息学的研究内容、生物信息学的研究内容 u发展新的数理和信息科学的技术和发展新的数理和信息科学的技术和方法用于管理和分析生物数据方法用于管理和分析生物数据(生物工作者)(生物工作者)(数理和信息(数理和信息科学工作者)科学工作者)4、生物信息学的应用、生物信息学的应用 u基础研究和教学基础研究和教学 v分子生物学研究的重要手段之一分子生物学研究的重要手段之一 v生命科学的教学生命科学的教学 u药物开发药物开发 v新药筛选新药筛选 v药靶设计药靶设计 v分子药理学研究分子药理学研究 u疾病诊断疾病诊断 v利用疑难病症的病原利用疑难病症的病原DNA序列诊断疾病序列诊断疾病 v遗传
8、病遗传病 u其他其他 v环境监测环境监测 v食品安全检测食品安全检测 v海关检测海关检测 5、因特网的域名(、因特网的域名(domain name)规定规定 u三级或四级域名三级或四级域名 四级域名四级域名.三级域名三级域名.二级域名二级域名.顶级域名顶级域名 u华农一台名为华农一台名为bioinformatics 主机的域名主机的域名 6、本课程主要内容、本课程主要内容 利用国际上共享的数据库和分析软件利用国际上共享的数据库和分析软件 u 检索数据库检索数据库 v序列的结构和功能和分析序列的结构和功能和分析 v比较基因组学比较基因组学(comparative genomics)分析分析 v物
9、种进化分析物种进化分析u 分析和解释实验数据(核苷酸和蛋白质序列)分析和解释实验数据(核苷酸和蛋白质序列)v文字数据的检索文字数据的检索 v序列(序列(DNA、蛋白质)数据的检索、蛋白质)数据的检索 v其他(三维结构、网络图等)数据的检索其他(三维结构、网络图等)数据的检索7、上机操作、上机操作 初步了解初步了解Internet上上 的数据库和分析工具的数据库和分析工具 Internet 上的自教课程上的自教课程 1.V TAL e e LPN VPLQG ELSSH 2.LGNISF L FILNLTN TGLTG SVPNK 3.IGRLRR L ELLDLGH NAMSG G IPAA
10、4.IGNLTR L QLLNL Q Q F NQLYG PIPAE 5.LQGL h h S L G s s MNL r r h h NYLTG s s IPDD 6.LFNNTPLL TYLNVGN NSLSG LIP g g C 7.IGSLPI L Q h h L n n FQ a a NNLTG AVPPA 8.IFNMSK L S t t ISL i i s s NGLTG PIPG n n T 9.SFSLPV L R W W F a a I s s K K NNFFG QIP l l G 10.LAACPY L QVIAM P P y y NLFEG VLP p p W 11.
11、LGRLTN L D A A I s s LG g g NNFDAG PIPT e e 12.LSNLTM L T v v LDLT T T CNLT G N N IPAD 13.IGHLGQ L S w w LHLA M M NQLTG PIPAS 14.LGNLSS L A I I L l l L k k G G NLLDG SLPST 15.VDSMNS L TATA V d d V T T ENNLHGD L n n FLS t t 16.VSNCRK L S t t L Q Q Md L L NYITG I LPDY 17.VGNLSS q q L K W W F T T L S S
12、 n n NKLTG TLPAT 18.ISNLTA L E V V I D L S S H NQLR N N AIPES 19.IM T IEN L Q W W LDLS G NSLSG FIPSN 20.TALLRN I V K K LFL e e S NEISG SIPKD 21.MRNLTN L EHL L L LSD NKLTS TIPPS 22.LFHLD k k I V r r LDLSR NFLSG ALPVD 23.VGYLKQ I T i i MDLSd N H H FSG RIPYS 24.IGQLQM L THLNLSA N g g F y y D SVPDS 25.FGNLTG L QTLDISH NSISG TIPNY 26.LANFTT L VSLNLSF NKLHG QIPEG LxxLxxLxxLxx L L xxxx L L x x L L xxxx NxLxGNxLxG xIPxxxIPxx XA26-LRR u 7%的氨基酸位点受到正向选择的氨基酸位点受到正向选择 u 大约大约 74 的正向选择位点位于的正向选择位点位于 xxLxLxx motif Xa26 家族进化 点突变和正向选择点突变造成点突变和正向选择点突变造成 Xa26 家族成员间差异主要原因家族成员间差异主要原因