《生物信息学课件精.ppt》由会员分享,可在线阅读,更多相关《生物信息学课件精.ppt(36页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学课件第1页,本讲稿共36页初步计划讲授内容1.1.绪论2.2.生物信息学的计算机基础3.3.生物信息学资源与数据挖掘工具4.4.DNA序列分析5.5.分子系统发育分析6.6.基因组分析7.7.蛋白质组分析8.8.数学模型第2页,本讲稿共36页本课目录1 1当今生命科学展望2 2生物信息学简介3 3发展现状第3页,本讲稿共36页一、当今生命科学展望第4页,本讲稿共36页基因数据的快速增长第5页,本讲稿共36页为什么这么快Sanger,UK第6页,本讲稿共36页已完成测序的基因组(EBI)病毒病毒(virus)(virus)16391639包括多种流感病毒包括多种流感病毒,HIV,SAR
2、S,HIV,SARS冠状病冠状病毒等毒等类病毒类病毒(viroid)(viroid)4646主要是植物病毒主要是植物病毒质粒质粒(plasmid)(plasmid)627627主要提自细菌中主要提自细菌中噬菌体噬菌体(phage)(phage)469469细胞器细胞器(organelle)(organelle)15101510如线粒体、叶绿体如线粒体、叶绿体古细菌古细菌(archaea)(archaea)5454细菌细菌(bacteria)(bacteria)694694真核生物真核生物(eukaryota)(eukaryota)7878包括草履虫、疟原虫、弓形虫、酵母、包括草履虫、疟原虫、弓
3、形虫、酵母、线虫、果蝇、海藻、水稻、鸡、鼠、线虫、果蝇、海藻、水稻、鸡、鼠、狗、人、黑猩猩等狗、人、黑猩猩等2008.92008.9第7页,本讲稿共36页测序进展n nGenBankGenBank中已超过中已超过20002000亿碱基对亿碱基对n n速度速度l l目前速度目前速度:10:10天一个基因组天一个基因组(细菌细菌)l l目标目标:1:1天一个基因组天一个基因组n n价格价格l l目前价格目前价格:10000:10000美元美元(细菌细菌)l l目标目标:1000:1000美元美元l l趋势趋势:过去十几年过去十几年,每每2 2年半价年半价n n微小化、并列化微小化、并列化:数千到数
4、十万wellwelln n多目标化多目标化:肠内几十上百种微生物、土壤中全部微生物同肠内几十上百种微生物、土壤中全部微生物同时测序时测序n n最小基因组研究、基因组人工合成最小基因组研究、基因组人工合成第8页,本讲稿共36页蛋白数据增长(PDB)第9页,本讲稿共36页反应通路(KEGG)n nglycolysis pathway(糖酵解)n n京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes)第10页,本讲稿共36页全细胞通路第11页,本讲稿共36页人类基因组计划(1)人类三大计划曼哈顿原子弹计划曼哈顿原子弹计划曼哈顿原子弹计划曼哈顿原子
5、弹计划(1942-46)(1942-46)阿波罗登月计划阿波罗登月计划阿波罗登月计划阿波罗登月计划(1961-69)(1961-69)人类基因组计划人类基因组计划人类基因组计划人类基因组计划(1990-2003)(1990-2003)第12页,本讲稿共36页人类基因组计划(2)n nhttp:/www.ornl.gov/sci/techresources/Human_Gehttp:/www.ornl.gov/sci/techresources/Human_Genome/home.shtmlnome/home.shtmll l人类基因组计划(Human Genome Project,HGP)l
6、l由美国能源部(Department of Energy,DOE)和美国国立卫生研究院(National Institutes of Health,NIH)组织完成l l1990年10月开始,2003年4月完成(1953双螺旋)l l参与国:美、英、日、法、德、中l l并没有完成测序(2006.5完成)第13页,本讲稿共36页人类基因组计划(3)超额完成目标领域领域目标目标实际达到实际达到完成时间完成时间完成时间完成时间1515年年1313年年2003.42003.4遗传图遗传图2-52-5厘摩厘摩,600-1500,600-1500个标记个标记1 1厘摩厘摩,3000,3000标记标记199
7、4.91994.9物理图物理图30000 STS30000 STS52000 STS52000 STS1998.101998.10DNADNA序列序列95%95%含基因序列含基因序列,99.99%,99.99%99%,99.99%99%,99.99%精确精确2003.42003.4测序速度和测序速度和费用费用500 Mb/500 Mb/年年,0.25,1400 Mb/1400 Mb/年年,0.09,0.09 美元美元/bp/bp2002.112002.11序列变异序列变异1010万万SNPSNP3.73.7百万百万SNPSNP2003.22003.2基因识别基因识别全长全长cDNAcDNA15
8、00015000全长全长cDNAcDNA2003.32003.3模式生物模式生物大肠杆菌、酵母菌、线虫大肠杆菌、酵母菌、线虫(C)(C)、果、果蝇蝇(D)(D)基因组序列基因组序列除完成上述除完成上述,C.briggsae,D.,C.briggsae,D.pseudoobscura,pseudoobscura,大小鼠草图大小鼠草图2003.42003.4功能分析功能分析发展基因组水平的技术发展基因组水平的技术高通量寡核苷酸合成、高通量寡核苷酸合成、DNADNA微微阵列、酵母全基因组水平敲除、阵列、酵母全基因组水平敲除、蛋白双杂交蛋白双杂交1994,1996,1994,1996,1999,200
9、21999,2002第14页,本讲稿共36页生命科学的发展趋势和热点n n发展趋势l l系统生物学:微观还原,系统l l统一生物学(General Biology)l l生物技术的产业化n n热点l l生物大分子的结构与功能研究l l基因组与细胞的研究l l脑科学和神经科学研究l l行为科学研究l l关于遗传、发育、分化、进化的综合理论研究l l生态环保研究第15页,本讲稿共36页物理学的发展对生命科学的启示1717世纪世纪1818世纪世纪1919世纪世纪2020世纪世纪2121世纪世纪经典物理学经典物理学应用物理应用物理现代物理现代物理物理学大量实验数据积累公式化公式化机械论完善机械论完善相
10、对论、量子力学相对论、量子力学非线性物理、复杂系统非线性物理、复杂系统生命科学农业、医药实践农业、医药实践分类、解剖研究分类、解剖研究进化理论遗传学、分子生物学遗传学、分子生物学大量实验数据积累大量实验数据积累公式化?公式化?博物学近代生物学近代生物学现代生物学现代生物学2121世纪的生物学世纪的生物学第16页,本讲稿共36页二、生物信息学简介第17页,本讲稿共36页什么是生物信息学(1)n nbioinformatics=bio+informatics=bio+informatics 生物 信息学n n相关学科l l计算生物学计算生物学(computational biology)(comp
11、utational biology)l l系统生物学系统生物学(systems biology)(systems biology)第18页,本讲稿共36页什么是生物信息学(2)n nhttp:/bioinformatics.org/faq/#definitionsl l(大致地)计算机对生物信息的处理l l(多数人认为,面窄)计算分子生物学(computational molecular biology)l l(宽松地)甚至包括医疗成像、图像分析、遗传算法、人工智能、神经网络l l(经典)用计算机储存、比较、提取、分析、预言、模拟生物分子的组成与结构。主要应用(core)是序列分析l l(新)
12、比较基因组学、功能基因组学、蛋白质组学、结构基因组学第19页,本讲稿共36页多老了?n n1960s已有建立数据库、序列分析、开发算法,当时叫分子进化n n如果考虑生物数学,19世纪已经流行n n首次提出Bioinformatics的说法l l荷兰理论生物学家荷兰理论生物学家19801980年代初年代初Ben Ben HesperHesper和和Paulien Hogewegl l马来西亚生化物理学家林华安马来西亚生化物理学家林华安(Hwa A.(Hwa A.Lim)Lim)于于19871987年年n n最早提到该词的文献(PubMed)(1990)Genomics,6(2):389第20页,
13、本讲稿共36页生物信息学发展阶段(1)n n前基因组时代(pre-genomics era)l l建立生物数据库建立生物数据库(1965,(1965,Margaret Margaret DayhoffDayhoff的Atlas of Protein Sequences;1982,GenBank Release 3)l l对位算法对位算法(1970,Needleman-(1970,Needleman-Wunsch;1981,Smith-Wunsch;1981,Smith-Waterman)Waterman)l l1977,DNA1977,DNA测序和相应的软件分析测序和相应的软件分析(RA St
14、aden)(RA Staden)第21页,本讲稿共36页发展阶段(2)n n基因组时代(genomics era)l l一批基因组一批基因组被测序被测序 1982 噬菌体 1995 1995 细菌细菌1996 1996 酵母酵母1998 线虫1999 1999 果蝇果蝇第22页,本讲稿共36页发展阶段(3)n n基因组时代(genomics era)l l数据库搜索算法数据库搜索算法(1983,Wilbur-Lipman)(1983,Wilbur-Lipman)l l快速序列相似性查找(1985,FASTN;1990,BLAST)l l机构建立机构建立1988,NCBI1988,EMBnet1
15、988,EMBnet1993,Sangerl l1991,EST1991,EST技术技术第23页,本讲稿共36页发展阶段(4)n n后基因组时代(post-genomics era)l lHGP(1990-2003)l l1995,蛋白质组学(Proteomics)l l高通量高通量(high-throughput)(high-throughput)实验手段实验手段第24页,本讲稿共36页发展阶段(5)n n后基因组时代(post-genomics era)l l比较基因组学比较基因组学(comparative(comparative genomics)genomics)l l结构基因组学(S
16、trutural genomics,2001)l l功能基因组学功能基因组学(Functional(Functional genomics)genomics)l l系统生物学系统生物学l l系统树重建系统树重建(phylogenic(phylogenic reconstruction)reconstruction)第25页,本讲稿共36页生物信息学基本方法(1)n n建立生物数据库l l如GenBank,EMBL,DDBJn n搜索数据库l l如BLASTn n序列分析l l如比对(alignment)、注释(annotation)、寻找外显子n n统计分析l l如隐马尔科夫模型(HMM)、贝
17、叶斯分析(Bayesian analysis)第26页,本讲稿共36页生物生物计算机计算机工程学工程学数学数学物理物理基本方法(2)n n算法l l如遗传算法(genetic algorithm,GA)、人工神经网络(artificial neural network,ANN)n n数学模型l l如确定性模型(deterministic model)、随机性模型(stochastic model)n n多学科方法第27页,本讲稿共36页应用n n基因组层次分析l l如序列如序列功能、蛋白质、进化研究功能、蛋白质、进化研究n n基因芯片l l如如DNADNA芯片芯片(DNA chip),(DNA
18、 chip),蛋白质芯片的动态数据分析蛋白质芯片的动态数据分析n n药物开发l l如寻找药靶、药物分子结构、系统药物开发如寻找药靶、药物分子结构、系统药物开发n n经济价值l l“bioventure”生物风险公司l l药物、生物制品、相关试剂、器材第28页,本讲稿共36页三、发展现状第29页,本讲稿共36页学术1/51/51/201/20第30页,本讲稿共36页我国的发展现状(1)总括n n国家高技术研究发展计划(863)l l生物信息的获取、加工和利用,建立数据库l l结构基因组和蛋白质组学研究l l高通量药物筛选、药物设计l l生物芯片n n曙光系列生物信息学服务器n n基因组l l完成
19、1人类基因组计划(中国卷;3号染色体短臂“端粒至D3S3610”)(1994-2001.8)l l2001.10独立完成水稻基因组“工作框架图”绘制和数据库建设;完成国际水稻基因组计划的20%l l其他:家猪、血吸虫、家鸡、家蚕、大豆第31页,本讲稿共36页我国的发展现状(2)n n生物信息学企业l l如华大、中科院等建立了一些n n中国生物信息学大会l l首届,2001.4.11-13,北京,军事医学科学院l l第二届,2002.6.28,北京大学l l第三届,2008.10.6-9,武汉华中科技大学n n国际生物信息学大会l l首届,2003l l第四届,2006.6.10,中南大学第32
20、页,本讲稿共36页我国的发展现状(3)主要研究中心n n北京华大基因研究中心(中科院基因组研究所)杨焕明 http:/ n国家人类基因组南方研究中心(上海)陈竺、赵国屏 http:/ n国家人类基因组北方研究中心(北京)强伯勤 http:/ n清华大学生物系生物信息研究室 孙之荣 http:/ n北京大学生物信息学中心 罗静初 http:/ n复旦大学理论生物中心 钟扬 http:/ n中科院国家基因研究中心中科院国家基因研究中心 http:/ n中科院理论物理所统计物理和理论生命科学中科院理论物理所统计物理和理论生命科学 陈晓松、郝柏林陈晓松、郝柏林 http:/ n中科院生物物理所系统生物
21、学研究中心中科院生物物理所系统生物学研究中心 陈润生、蒋太交陈润生、蒋太交 http:/ n中科院中科院上海生命科学研究院上海生命科学研究院生物信息中心生物信息中心 李亦学李亦学 http:/ n中科院上海生化所中科院上海生化所 http:/ n n中科院中科院计算所计算所生物信息实验室生物信息实验室 http:/ n中科院遗传所分子系统生物学中心中科院遗传所分子系统生物学中心 韩敬东韩敬东 http:/ n军事医学科学院军事医学科学院生物工程所生物信息学中心生物工程所生物信息学中心 http:/ n中科院微生物所中科院微生物所 http:/http:/ 第34页,本讲稿共36页我国的发展现状(5)研究中心n n天津大学天津大学生物信息中心生物信息中心 张春霆张春霆 http:/ n中山大学生物信息中心生物信息中心 徐安龙徐安龙 http:/http:/ n n中山医科大学中山医科大学 http:/http:/ n n东南大学(江苏省生物信息学专业委员会江苏省生物信息学专业委员会)孙啸孙啸 http:/ n西北大学西北大学n n西安交通大学n n上海交通大学上海系统生物医学研究中心上海交通大学上海系统生物医学研究中心 陈竺陈竺n n哈尔滨医科大学生物信息学系 李霞李霞http:/