《第一课生物信息学概论课件.ppt》由会员分享,可在线阅读,更多相关《第一课生物信息学概论课件.ppt(52页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生生 物物 信信 息息 学学 概概 论论Introduction to Bioinformatics程钢生命科学学院生命科学学院中南民族大学中南民族大学1一、生物信息学发展的背景二、生物信息学概念及其研究内容和特点三、生物信息学的发展现状四、生物信息学课程的特点2一、生物信息学发展的背景3(1)基因组测序计划 海量DNA序列数据DNADNA序列是生命的真谛,这个世界上发生的一切事情序列是生命的真谛,这个世界上发生的一切事情都与这一序列息息相关。(唯都与这一序列息息相关。(唯DNADNA论)论)人类基因组计划(人类基因组计划(人类基因组计划(人类基因组计划(HGPHGP)1990年启动目标:测定
2、人类基因组的全部DNA序 列,了解基因及其功能国际大合作:国际大合作:美国、英国、日本、美国、英国、日本、法国、德国、中国法国、德国、中国投入:30亿美元结果:2003年完成精细图,产生28亿多个数据(碱基)4AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATG
3、ACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATG
4、CATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGA
5、CGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGAT
6、GCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGC
7、ATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATG
8、ACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATAA C G T相当于相当于相当于相当于28002800多本每本多本每本多本每本多本每本10001000页每页页每页页每页页每页10001000字的字的字的字的“天书天书天书天书”5基因组测序计划 海量DNA序列数据(续)(续)模式生物基因组计划模式生物:小鼠、线虫、拟南芥、果蝇、水稻、酵母、古细菌、真细菌、病毒 地球
9、生物圈约有140140万余种物种,其中2 2以上以上至少有一段DNA序 列被测定。真核生物 1250012500 种 哺乳动物 42004200 种 真 细 菌 36003600 种 古 细 菌 180180 种 病 毒 17501750 种6DNA序列数据增长趋势7功能基因组研究 功能相关海量数据转录组转录组EST(Expressed Sequence Tag)EST(Expressed Sequence Tag)DNA DNA MicroarrayMicroarray large scale gene expression analysis large scale gene express
10、ion analysis蛋白质组蛋白质组2D Gel Electrophoresis protein expression analysisMass Spectrometry protein sequencingYeast Two-Hybrid(Y2H)System protein interaction analysis结构基因组结构基因组X-ray CrystallographyX-ray CrystallographyNMR(Nuclear Magnetic Resonance)SpectroscopyNMR(Nuclear Magnetic Resonance)Spectroscopy
11、8The Yeast cDNA Microarray Picture9基因表达谱数据增长趋势10The number of entries in SwissProt 140,000 now!蛋白质序列数据增长情况11Tertiary Structure of a Protein12The number of entries in PDB 25,000 now蛋白质结构数据增长情况13各种分子生物学数据库及其增长情况14生物数据爆炸性增长:得到的结论是:生物数据量的积累已达到人类有史以来所记录的文字的数百倍,而且还将以越来越快的速度增长。15(2)更为本质的原因是生物学数据的更为本质的原因是生物
12、学数据的复杂性急待生物信息学的分析方法。复杂性急待生物信息学的分析方法。多基因病中致病基因彼此关系和致病性分析。蛋白三维结构和基于结构预测的蛋白之间或者蛋白与药物分子的相互作用和蛋白亚细胞定位。16生物信息学是今后所有从事现代生物学生物信息学是今后所有从事现代生物学(医药学)研究所必需的工具和相关工作(医药学)研究所必需的工具和相关工作人员需要具备的基本技能。人员需要具备的基本技能。17二、生物信息学概念及其研究内容和特点18生物数据爆炸性增长所带来的挑战AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAA
13、GTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGAC
14、CTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAA C G T海量数据的存储、管理、共享数据 知识,如何将这些数据变为生物学知识?19生物信息学基本概念早在早在195
15、6年,在美国田纳西州盖特林堡召开的首次年,在美国田纳西州盖特林堡召开的首次“生物学中的信息理论研讨会生物学中的信息理论研讨会”上,便产生了生物信息上,便产生了生物信息学的概念。学的概念。1987年,林华安博士正式把这一学科命名年,林华安博士正式把这一学科命名为为“生物信息学生物信息学”(Bioinformatics)。被尊称为)。被尊称为“生物生物信息学之父信息学之父”。生物信息学(生物信息学(Bioinformatics):):(1)生物信息学包含了生物信息的获取、处理、储存、生物信息学包含了生物信息的获取、处理、储存、分析和解释等在内一门交叉学科,分析和解释等在内一门交叉学科,(2)它综合
16、运用数学、计算机科学和生物学的各种工它综合运用数学、计算机科学和生物学的各种工具进行研究,具进行研究,(3)目的在于阐明大量生物学数据所包含的生物学意目的在于阐明大量生物学数据所包含的生物学意义。义。20生物信息学当前的主要研究任务生物信息学当前的主要研究任务1.生物数据的收集与服务生物数据的收集与服务2.基因组分析基因组分析(核酸序列分析)(核酸序列分析)3.转录组数据分析转录组数据分析(基因表达分析)(基因表达分析)4.蛋白质组数据分析(七大方面)蛋白质组数据分析(七大方面)5.代谢组数据分析代谢组数据分析(生化网络以及多数据资源的整合分(生化网络以及多数据资源的整合分 析)析)6.疾病基
17、因预测疾病基因预测(相关数据资源的整合分析)(相关数据资源的整合分析)7.药物靶点发现与药物设计药物靶点发现与药物设计(相关数据资源的整合分析)(相关数据资源的整合分析)8.生物信息分析的技术和方法研究生物信息分析的技术和方法研究21生物信息学当前的主要研究任务生物信息学当前的主要研究任务1.生物数据的收集与服务生物数据的收集与服务2.基因组分析基因组分析(核酸序列分析)(核酸序列分析)核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)DNA顺序上的差别为基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基
18、础。221.生物数据的收集与服务生物数据的收集与服务2.基因组分析基因组分析(核酸序列分析)(核酸序列分析)3.转录组数据分析转录组数据分析(基因表达分析)(基因表达分析)RNA水平基因表达研究的基本方法有EST、Micro-array,所产生的数据量也非常巨大。但是目前的分析方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。生物信息学当前的主要研究任务生物信息学当前的主要研究任务23蛋白质组学:(1)蛋白质组图像数据处理,蛋白及其修饰鉴定)蛋白质组图像数据处理,蛋白及其修饰鉴定(2)构建蛋白质数据库,相关软件的开发和应用;)构建蛋白质数据库,相关
19、软件的开发和应用;(3)蛋白质结构、功能预测;)蛋白质结构、功能预测;(4)蛋白质连锁图。)蛋白质连锁图。生物信息学当前的主要研究任务生物信息学当前的主要研究任务24代谢组学:新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如影响人类健康的常见代谢疾病等。生物信息学当前的主要研究任务生物信息学当前的主要研究任务25生物信息学研究都有其特定的、不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于新的思路和设想。生物信息学当前的主要研究任务生物信息学当前的
20、主要研究任务26生物信息学的特点 它是一门基于数据积累,尤其是原始数据积累的科学。数据的获取是生物信息学发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的首要特点是生物学基本数据收集的规模化,数据处理的程序化,数据分析的专门化。27生物信息学的特点极强的竞争性。不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。28生物信息学的特点硬件:中高端的服务器和海量数据存储以及个人电脑互联网软件包括了两大方面:算法良好的用户界面29生物信息学研究的意义生物信息学研究的意义科学意义科学意义:可望从海量生物学数据
21、分析中获得对生命:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等等的深入理解。运行机制和疾病机理等等的深入理解。应用价值:在生物医药研究和生物技术相关产业(生应用价值:在生物医药研究和生物技术相关产业(生物制药、农、林、牧、渔、环保等)的发展中将发挥物制药、农、林、牧、渔、环保等)的发展中将发挥越来越重要的作用。越来越重要的作用。30生物信息学研究的意义生物信息学研究的意义产业潜力产业潜力:自身产业发展潜力很大:自身产业发展潜力很大:19971997年年1.51.5亿美元,亿美元,19981998年年2.72.7亿美元,亿美元,19991999年年4.64.6亿美元,亿美元,2000
22、2000年已达年已达7.47.4亿美元;亿美元;预测预测20102010年将达千亿美元。年将达千亿美元。竞竞争争优优势势:强调的是人才智力,是我国赶超世界发达国家最有希望的领域之一,是我国重点支持的方向之一。31三、生物信息学的发展现状32生物信息学的发展过程大致经历了3个阶段:前基因组时代-生物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;3319561956年在美国召开过首次年在美国召开过首次“生物学中的信息理论生物学中的信息理论”讨论会讨论会 6060年代美国建立了手工搜集数据的蛋白质数据库年代美国建立了手工搜集数据的蛋白质数据库 19621962年年Z
23、uckerkandlZuckerkandl基于序列变异分析的基于序列变异分析的分子演化研究分子演化研究 19641964年年DaviesDavies开创了蛋白质结构预测的研究开创了蛋白质结构预测的研究 19701970年年NeedlemanNeedleman等发表了广受重视的两序列比较算法等发表了广受重视的两序列比较算法 19701970年出现年出现Computer Methods and Programs in Computer Methods and Programs in BiomedicineBiomedicine期刊期刊 19741974年年RatnerRatner首先对分子遗传调控
24、系统进行处理分析首先对分子遗传调控系统进行处理分析 19751975年年PipasPipas等首先提出用计算机技术预测等首先提出用计算机技术预测RNARNA二级结构二级结构 19791979年美国洛斯阿拉莫斯国家实验室建立年美国洛斯阿拉莫斯国家实验室建立GenBankGenBank Science Science于于19801980年发表了关于计算分子生物学的综述年发表了关于计算分子生物学的综述 19821982年欧洲分子生物学实验室提供年欧洲分子生物学实验室提供EMBLEMBL服务服务 19841984年日本着手建立国家级核酸序列数据库年日本着手建立国家级核酸序列数据库DDBJDDBJ34基
25、因组时代-基因寻找和识别、网络数据库系统的建立、交互界面的开发;美国于美国于19881988年成立国家生物技术信息中心(年成立国家生物技术信息中心(NCBINCBI)欧洲于欧洲于19931993年着手建立欧洲生物信息学研究所(年着手建立欧洲生物信息学研究所(EBIEBI)日本于日本于19951995年组建了自己的信息生物学中心(年组建了自己的信息生物学中心(CIBCIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。九十年代以来,生物数据分析技术获得了突飞猛进的发展。同时在国内同时在国内北京大学于北京大学于19971997年成立了生物信息学中心年成立了生物信息学中心上海生命科学研究院于上
26、海生命科学研究院于20002000年成立了生物信息学中心年成立了生物信息学中心上海市于上海市于20022002年成立生物信息技术工程研究中心年成立生物信息技术工程研究中心35后基因组时代-大规模不同来源的组学数据分析。各种专业研究机构和公司如雨后春笋般涌现各种专业研究机构和公司如雨后春笋般涌现 生物科技公司和制药工业内部生物信息学部门的数量与日生物科技公司和制药工业内部生物信息学部门的数量与日俱增俱增 即使象美国这样的发达国家也面临生物信息人才匮乏的局即使象美国这样的发达国家也面临生物信息人才匮乏的局面面 许多大学和研究机构已经成立自己的生物信息学中心许多大学和研究机构已经成立自己的生物信息学
27、中心 生物信息专业期刊越来越多:如生物信息专业期刊越来越多:如 BioinformaticsBioinformatics Journal of Computational BiologyJournal of Computational Biology Briefings in BioinformaticsBriefings in Bioinformatics ActaActa BiotheoreticaBiotheoretica Bio Informatics Technology&Systems Bio Informatics Technology&Systems BioinformBioi
28、nform Newsletter Newsletter 互联网上的生物信息学网点非常繁多互联网上的生物信息学网点非常繁多36Published April 25,20082007 IF 4.914作者:作者:魏丽萍魏丽萍 博士博士北京大学生命科学学院生物信息中心主任,教授北京大学生命科学学院生物信息中心主任,教授蛋白质工程与植物基因工程国家重点实验室蛋白质工程与植物基因工程国家重点实验室 副主任副主任于于 军军 博士博士中国科学院北京基因组研究所副所长中国科学院北京基因组研究所副所长 37 bioinformatics training programs in China.31个博士,硕士学位
29、点个博士,硕士学位点38 从工具的角度来讲,生物信息学是今后所有从工具的角度来讲,生物信息学是今后所有生物(医药)研究开发所必需的方法和相关生物(医药)研究开发所必需的方法和相关工作人员需要具备的基本技能,所以生物信工作人员需要具备的基本技能,所以生物信息学课程的建设对于生物相关专业有重要的息学课程的建设对于生物相关专业有重要的实际意义。实际意义。39四、四、“生物信息学生物信息学”课程的特点课程的特点40如何掌握好如何掌握好“生物信息学生物信息学”?41生物、计算机、数学等多学科交叉,知识覆盖面广;涉及从基因组序列分析直到药物设计等众多内容,且应用领域宽广;生物信息数据资源与分析工具繁多,实
30、践环节非常重要;理论方法尚不系统成熟,处于迅速发展变化阶段,知识更新快。缺乏合适的教材课程特点课程特点42数学方面数学方面 统计学,是生物信息学的数学基础之一;统计学,是生物信息学的数学基础之一;概率论与随机过程理论;概率论与随机过程理论;运筹学,如动态规划法;运筹学,如动态规划法;最优化理论与算法;最优化理论与算法;几何拓扑学;几何拓扑学;函数论,如傅里叶变换,小波变换;函数论,如傅里叶变换,小波变换;信息论,神经网络,计算数学;群论,组合数学等。信息论,神经网络,计算数学;群论,组合数学等。43计算机方面计算机方面 网络技术和数据库(特别是关系型数据库)管理技术;网络技术和数据库(特别是关
31、系型数据库)管理技术;数据整合和可视化;数据整合和可视化;数据挖掘(数据挖掘(Data MiningData Mining)与人工智能)与人工智能;算法设计算法设计 ;软件研制。软件研制。44本课程基本要求硬件:中高端的服务器和海量数据存储以及个人电脑(电脑的熟练使用)互联网(熟练的使用)软件包括了两大方面:算法(基本了解)良好的用户界面(熟练的使用)45本课程高级要求了解问题掌握方法熟悉资源融会贯通46了解问题1.1.核酸序列分析核酸序列分析2.2.分子进化与系统发育分析分子进化与系统发育分析3.3.蛋白质结构预测蛋白质结构预测(蛋白质序列分析蛋白质序列分析)4.4.基因功能预测基因功能预测
32、(蛋白质序列分析、基因表达数据分析、蛋蛋白质序列分析、基因表达数据分析、蛋白质组数据分析、核酸序列分析白质组数据分析、核酸序列分析 )5.5.高阶系统的建模与仿真高阶系统的建模与仿真(众多数据资源的整合分析众多数据资源的整合分析)6.6.疾病基因预测疾病基因预测(相关数据资源的整合分析相关数据资源的整合分析)7.7.药物靶点发现与药物设计药物靶点发现与药物设计(相关数据资源的整合分析相关数据资源的整合分析)8.8.其它方面的应用研究其它方面的应用研究(相关数据资源的整合分析相关数据资源的整合分析)47掌握方法掌握方法数据挖掘与知识发现方法:贝叶斯方法判别分析决策树特征的选择与提取聚类方法HMM
33、(Hidden Markov Model)方法ANN(Artificial Neural Network)方法SVM(Support Vector Machine)方法数据库与软件的设计与开发48熟悉资源熟悉资源数据资源数据资源分子生物学数据库数量众多(500种以上)、种类繁多基因组数据库、核酸序列数据库、蛋白质序列数据库生物大分子三维空间结构数据库特殊功能数据库、工具数据库分析软件资源分析软件资源核酸序列分析;蛋白质序列分析;其它资源其它资源搜索引擎;电子论坛;49参考书目生物信息学概论Introduction to bioinformatics(英)T K Attwood,D J Parr
34、y-Smith 著 罗静初 等译北京大学出版社 2002年4月第一版生物信息学手册 郝柏林 张淑誉 编著上海科学技术出版社 2000年10月第一版生物信息学 赵国屏 等 编著 科学出版社 2002年4月 第一版 生物信息学-基因和蛋白质分析的实用指南 Bioinformatics-A Practical Guide to the Analysis of Genes and Proteins Andreas D.Baxevanis B.F.Francis Ouellette 著李衍达 孙之荣 等 译清华大学出版社 2000年8月 第一版50思考题生物信息学的定义51联系方式:电话:65201076(O:8号楼213#)Email:cheng_52