《生物信息学-第一章课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学-第一章课件.ppt(74页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、杜杜 娟娟2013.02.27生物信息学生物信息学课程简介课程简介课程特点课程特点课程目标课程目标课程形式课程形式参考教材与文献参考教材与文献教师联系方式教师联系方式成绩构成成绩构成2生物、计算机、数学、化学等多学科交叉,知识覆盖面广;涉及从基因组序列分析直到药物设计等众多内容,且应用领域宽广;生物信息数据资源与分析工具繁多,实践环节非常重要;理论方法尚不系统成熟,处于迅速发展变化阶段,知识更新快。缺乏合适的教材课程特点课程特点3课程目标课程目标掌握生物信息学的基本知识与概念掌握生物信息学的基本知识与概念了解生物信息学网上资源了解生物信息学网上资源针对核酸和蛋白质的分析针对核酸和蛋白质的分析4
2、课程形式课程形式讲授概念与知识点讲授概念与知识点 (TextbooksTextbooks)自学与讨论自学与讨论 (Web sitesWeb sites)理解理解 (Literature referencesLiterature references)掌握与巩固掌握与巩固 (Computer ExperiencesComputer Experiences)5主要的参考教材主要的参考教材 1 生物信息学,陶士珩 主编 科学出版社,2007 2生物信息学,David W.Mount 著,钟 扬、王 莉、张 亮等译,高等教育出版社,2003。3 生物信息学基因和蛋白质分析的实用指南(Andreas D
3、.Baxevanis And B.F.Francis Ouellette 著).李衍达、孙子荣等 译.北京:清华大学出版社,20004简明生物信息学,钟扬等 主编.高等教育出版社,20015探索基因组学、蛋白质组学和生物信息学,孙子荣译.科学出版社,20046生物信息学方法与实践,张成岗 贺福初 编著.科学出版社,20026参考文献参考文献主要为英文原始文献,鼓励大家阅读。课题的研究方法7联系方式及成绩构成联系方式及成绩构成杜娟杜娟成绩构成成绩构成 随堂测验、课堂表现随堂测验、课堂表现 30%作业作业 30%项目报告项目报告 40%89生物信息学生物信息学绪论绪论一、生物信息学及其研究意义一、
4、生物信息学及其研究意义二、生物信息学的发展现状二、生物信息学的发展现状三、生物信息学当前的主要研究内容三、生物信息学当前的主要研究内容四、与生物信息学密切相关的学科四、与生物信息学密切相关的学科五、生物信息学产业及前景五、生物信息学产业及前景一、生物信息学及其研究意义一、生物信息学及其研究意义背背 景景1.1.人类基因组计划(人类基因组计划(HGPHGP)投入3030亿美元,20032003年完成精细图,约3030亿个数据(碱基),相当于相当于30003000本每本本每本10001000页每页页每页10001000字的字的“天书天书”。曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计
5、划人类基因组计划人类基因组计划112.模式生物基因组计划 模式生物基因组计划是人类基因组计划的一个重要组成部分。模式生物有:大肠杆菌、酵母、拟南芥、线虫、果蝇和小鼠等 3.相关功能基因组计划 转录组,基因表达谱,蛋白质组12生物学数据库的增长情况至今至今 1000多个多个13序列数据增长趋势14 生物数据爆炸性增长:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。15面对堆积如山的生物学数据面对堆积如山的生物学数据16数据 知识AGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTA
6、GCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGAT
7、TGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGA
8、CGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGC
9、ATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCA
10、TCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGT
11、GCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAA C G T17多学科高度交叉多学科高度交叉 生物学生物学生物学生物学医学医学医学医学 数学、统计学数学、统计学数学、统计学数学、统计学物理学、化学物理学、化学物理学、化学物理学、化学信息、系统与计算科学信息、系统与计算科学信息、系统与计算科学信息、系统与计算科学高性能计算、数据库、网格计高性能计算、数据库、网格计算算生物信生物
12、信息学与息学与系统生系统生物学物学18多尺度数据的整合和模拟多尺度数据的整合和模拟19什么是生物信息学什么是生物信息学 生物信息学(生物信息学(BIOINFORMATICS)是一门)是一门集数学,计算机科学和生物学的工具以及技术集数学,计算机科学和生物学的工具以及技术于一体的涵盖了生物信息的获取,处理,存储,于一体的涵盖了生物信息的获取,处理,存储,分配,分析和阐述等各个方面以理解海量的生分配,分析和阐述等各个方面以理解海量的生物学数据为目的的学科物学数据为目的的学科Understanding Our Genetic Inheritance.The US Human Genome Projec
13、t:The First Five Years 1991-1995.NIH Publication No.90-1590,April,1995生物信息技术是一个多学科交叉的前沿生物技术生物信息技术是一个多学科交叉的前沿生物技术生物信息技术是一个多学科交叉的前沿生物技术生物信息技术是一个多学科交叉的前沿生物技术20生物信息学研究的意义科学意义科学意义科学意义科学意义:可望从海量生物学数据分析中获得对生:可望从海量生物学数据分析中获得对生:可望从海量生物学数据分析中获得对生:可望从海量生物学数据分析中获得对生命运行机制和疾病机理等的深入理解。命运行机制和疾病机理等的深入理解。命运行机制和疾病机理等的
14、深入理解。命运行机制和疾病机理等的深入理解。应应应应用用用用价价价价值值值值:在在在在生生生生物物物物医医医医药药药药研研研研究究究究和和和和相相相相关关关关生生生生物物物物技技技技术术术术相相相相关关关关产产产产业业业业(生生生生物物物物制制制制药药药药、农农农农、林林林林、牧牧牧牧、渔渔渔渔、环环环环保保保保等等等等)的的的的发发发发展展展展中将发挥越来越重要的作用。中将发挥越来越重要的作用。中将发挥越来越重要的作用。中将发挥越来越重要的作用。21生物信息学是生命科学与信息技术生物信息学是生命科学与信息技术交叉融合的新学科,也是当今全球交叉融合的新学科,也是当今全球最具发展前途的学科之一。
15、最具发展前途的学科之一。When I give talks to young scientists seeking advice about areas of future intense scientific excitement,computational biology is my number one recommendation.Francis CollinsFrancis Collins,Director of HGP at NIH 生命科学已从一种以实验为基础的科学转向以信息为基础的科学,其成功将大大依靠信息科学与生命科学的联姻、依赖于生物信息技术的发展。基因信息现在正推动着生物
16、制药革命。破译人类基因组给我们带来了打开这个星球上最有价值的图书馆的钥匙,但我们现在阅读这些图书还处在非常初级的水平,科学家的下一步工作将是如何把信息从这些图书中挖掘出来。目前美国缺少有能力阅读这部人类基因“天书”并使用其中信息的人。这个领域有非常多的机会,有非常大的需要。据估计,这一领域所需要的研究人员数量将是现有人数的50倍。培养这种人才就像破译人类基因组一样重要。Eric Lander,200223二、二、生物信息学的发展生物信息学的发展现状现状生物信息学的萌芽 1956年在美国召开过首次“生物学中的信息理论”讨论会 60年代美国建立了手工搜集数据的蛋白质数据库,PIR 1962年Zuc
17、kerkandl基于序列变异分析的分子演化研究 1964年Davies开创了蛋白质结构预测的研究 1970年Needleman等发表了广受重视的两序列比较算法 1970年出现Computer Methods and Programs in Biomedicine期刊 1974年Ratner首先对分子遗传调控系统进行处理分析 1975年Pipas等首先提出用计算机技术预测RNA二级结构 1979年美国洛斯阿拉莫斯国家实验室建立GenBank25生物信息学的萌芽(续)Science于1980年发表了关于计算分子生物学的综述1982年欧洲分子生物学实验室提供EMBL服务1984年日本着手建立国家级核
18、酸序列数据库DDBJ1985年出现Computer Application in the Biosciences期刊2620世纪80年代末期,林华安博士compbio bioinformatique bio-informatics bioinformatics“生物信息学之父生物信息学之父”国外生物信息学的发展现状各种专业研究机构和公司如雨后春笋般涌现各种专业研究机构和公司如雨后春笋般涌现生生物物科科技技公公司司和和制制药药工工业业内内部部生生物物信信息息学学部部门门的的数数量量与与日日俱俱增增即使象美国这样的发达国家也面临生物信息人才匮乏的局面即使象美国这样的发达国家也面临生物信息人才匮乏的
19、局面许多大学和研究机构已经成立自己的生物信息学中心许多大学和研究机构已经成立自己的生物信息学中心19991999年年美美国国NIHNIH专专家家委委员员会会又又建建议议迅迅速速在在大大学学和和研研究究机机构构中中建建立立2020个个生生物物计计算算中中心心,给给予予每每个个中中心心每每年年800800万万美美元元的的支支持,从事有关研究和人才培养持,从事有关研究和人才培养英英国国所所有有主主要要研研究究资资助助机机构构达达成成共共识识,认认为为应应高高度度优优先先满满足足对对生生物物信信息息学学技技术术的的需需求求,并并已已实实现现对对相相关关人人才才培培养养的的大大力力资助资助27国外生物信
20、息学的发展现状(续)美国于美国于美国于美国于1988198819881988年成立国家生物技术信息中心(年成立国家生物技术信息中心(年成立国家生物技术信息中心(年成立国家生物技术信息中心(NCBINCBINCBINCBI)欧洲于欧洲于欧洲于欧洲于1993199319931993年着手建立欧洲生物信息学研究所(年着手建立欧洲生物信息学研究所(年着手建立欧洲生物信息学研究所(年着手建立欧洲生物信息学研究所(EBIEBIEBIEBI)日本于日本于日本于日本于1995199519951995年组建了自己的信息生物学中心(年组建了自己的信息生物学中心(年组建了自己的信息生物学中心(年组建了自己的信息生物
21、学中心(CIBCIBCIBCIB)九十年代以来,生物数据分析技术获得了突飞猛进的发展。九十年代以来,生物数据分析技术获得了突飞猛进的发展。九十年代以来,生物数据分析技术获得了突飞猛进的发展。九十年代以来,生物数据分析技术获得了突飞猛进的发展。生物信息专业期刊越来越多:如生物信息专业期刊越来越多:如生物信息专业期刊越来越多:如生物信息专业期刊越来越多:如 BioinformaticsBioinformaticsBioinformaticsBioinformatics Journal of Computational BiologyJournal of Computational BiologyJ
22、ournal of Computational BiologyJournal of Computational Biology Briefings in BioinformaticsBriefings in BioinformaticsBriefings in BioinformaticsBriefings in Bioinformatics Acta Biotheoretica Acta Biotheoretica Acta Biotheoretica Acta Biotheoretica Bio Informatics Technology&Systems Bio Informatics
23、Technology&Systems Bio Informatics Technology&Systems Bio Informatics Technology&Systems Bioinform Newsletter Bioinform Newsletter Bioinform Newsletter Bioinform Newsletter 互联网上的生物信息学网点非常繁多互联网上的生物信息学网点非常繁多互联网上的生物信息学网点非常繁多互联网上的生物信息学网点非常繁多28国内生物信息学的发展现状 国家非常重视:科技部,教育部,基金委,地方政府国家非常重视:科技部,教育部,基金委,地方政府国家
24、非常重视:科技部,教育部,基金委,地方政府国家非常重视:科技部,教育部,基金委,地方政府特别是:特别是:特别是:特别是:863863计划设立了计划设立了计划设立了计划设立了“生物信息技术生物信息技术生物信息技术生物信息技术”主题主题主题主题 众众众众多多多多高高高高校校校校与与与与研研研研究究究究机机机机构构构构参参参参与与与与:北北北北京京京京大大大大学学学学,中中中中科科科科院院院院生生生生物物物物物物物物理理理理所所所所、天天天天津津津津大大大大学学学学,中中中中科科科科院院院院理理理理论论论论物物物物理理理理所所所所,清清清清华华华华大大大大学学学学,内内内内蒙蒙蒙蒙古古古古大大大大学
25、学学学、上上上上海生命研究院,东南大学,华中科技大学,复旦大学等等海生命研究院,东南大学,华中科技大学,复旦大学等等海生命研究院,东南大学,华中科技大学,复旦大学等等海生命研究院,东南大学,华中科技大学,复旦大学等等 成立了一批中心,如:成立了一批中心,如:成立了一批中心,如:成立了一批中心,如:北京大学于北京大学于北京大学于北京大学于1997199719971997年成立了生物信息学中心年成立了生物信息学中心年成立了生物信息学中心年成立了生物信息学中心 上海生命科学研究院于上海生命科学研究院于上海生命科学研究院于上海生命科学研究院于2000200020002000年成立了生物信息学中心年成立
26、了生物信息学中心年成立了生物信息学中心年成立了生物信息学中心 上海市于上海市于上海市于上海市于20022002年成立生物信息技术工程研究中心年成立生物信息技术工程研究中心年成立生物信息技术工程研究中心年成立生物信息技术工程研究中心 取得了一些成绩,如基因组测序与分析,数据库,算法软件取得了一些成绩,如基因组测序与分析,数据库,算法软件取得了一些成绩,如基因组测序与分析,数据库,算法软件取得了一些成绩,如基因组测序与分析,数据库,算法软件29三、生物信息学当前的三、生物信息学当前的 主要研究内容主要研究内容生物信息学的发展过程生物信息学的发展过程大致经历了3个阶段个阶段:前基因组前基因组时代-生
27、物数据库的建立、检索工具的开发、DNA和蛋白质序列分析、全局和局部的序列对位排列;基因组基因组时代-基因寻找和识别、网络数据库系统的建立、交互界面的开发;后基因组后基因组时代-大规模基因组系统分析、蛋白质组分析31 生物信息服务平台建设生物信息服务平台建设 基因组序列分析基因组序列分析 蛋白质结构预测蛋白质结构预测 蛋白质功能预测蛋白质功能预测 基因表达谱数据分析基因表达谱数据分析 疾病基因的预测疾病基因的预测 药物设计中的应用药物设计中的应用32生物信息学的主要研究内容生物信息学的主要研究内容1.1.生物信息服务平台建设生物信息服务平台建设生物信息数据的收集,建立生物信息一级数据库和二级数据
28、库;建立生物信息传输的国际联网系统;建立生物信息数据质量的评估与检测系统;建立生物信息的可视化和在线服务系统;332.2.基因组序列分析基因组序列分析342.2.基因组序列分析(续)基因组序列分析(续)(1)(1)蛋白编码区与基因结构预测(新基因的发现)蛋白编码区与基因结构预测(新基因的发现)蛋白编码区与基因结构预测(新基因的发现)蛋白编码区与基因结构预测(新基因的发现)意意义义:得得到到DNA序序列列中中蛋蛋白白编编码码基基因因是是认认识识基基因因组组、了了解解其其运运作作机机理理的的第第一一步步;利利用用计计算算机机预预测测蛋白编码基因是一种方便、快捷的方法。蛋白编码基因是一种方便、快捷的
29、方法。现现状状:经经过过了了10多多年年的的研研究究,出出现现了了众众多多的的方方法法与与分分析析软软件件,但但效效果果仍仍难难令令人人满满意意。以以人人类类基基因因组组为例,目前对人类基因数量的估计仍是众说纷纭。为例,目前对人类基因数量的估计仍是众说纷纭。35 例:WHAT IS GENE PREDICTION?GIVEN AN UNCHARACTERIZED DNA SEQUENCE,FIND OUT:1.WHERE DOES THE GENE STARTS AND ENDS?2.WHICH REGIONS CODE FOR A PROTEIN?AGCATCGAAGTTGCATGACGAT
30、GCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCAT
31、CGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACG
32、ATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCgene 1gene 2gene 3exonintergenic regionintron362.2.基因组序列分析(续)基因组序列分析(续)(2)(2)基因调控序列的分析预测基因调控序列的分析预测基因调控序列的分析预测基因调控序列的分析预测意意义义:了了解解基基因因调调控控序序列列是是认认识识基基因因组组、了了解解其其运运作机理的重要内容。作机
33、理的重要内容。现现状状:对对启启动动子子已已经经过过了了10多多年年的的研研究究,出出现现了了众众多的方法与分析软件,但预测效果仍然很差。多的方法与分析软件,但预测效果仍然很差。372.2.基因组序列分析(续)基因组序列分析(续)(3)(3)非编码序列的分析非编码序列的分析非编码序列的分析非编码序列的分析意意义义:对对于于人人类类基基因因组组,非非编编码码序序列列约约占占95%以以上上,了了解解这这些些“垃垃圾圾DNA”的的作作用用是是认认识识基基因因组组、了了解解其运作机理的重要内容。其运作机理的重要内容。现现状状:研研究究刚刚刚刚开开始始,普普遍遍认认为为它它们们与与基基因因在在四四维维时
34、时空空的的表表达达调调控控有有关关。寻寻找找这这些些区区域域的的编编码码特特征征,信息调节与表达规律是未来相当长时间内的热点。信息调节与表达规律是未来相当长时间内的热点。38Junk DNA2.2.基因组序列分析(续)基因组序列分析(续)(4)(4)比较基因组研究比较基因组研究比较基因组研究比较基因组研究意意义义:比比较较基基因因组组学学通通过过对对代代表表性性物物种种全全基基因因组组的的比比较较分分析析,构构建建系系统统发发育育的的遗遗传传图图谱谱,寻寻找找不不同同物物种种在在基基因因组组水水平平上上的的差差异异和和共共同同点点,揭揭示示基基因因、基基因因家家族族的的起起源源和和功功能能及及
35、其其在在进进化化过过程程中中复复杂杂化化和和多多样样化化的的机机制制,鉴鉴定定新新的的基基因因(包包括括人人类类疾疾病病相关基因)。相关基因)。现状现状:研究刚刚开始。:研究刚刚开始。39403.蛋白质结构预测蛋白质结构预测 意义:结构与功能密切联系有助于阐明疾病机理,并进行药物设计n现状:通过实验的方法测定的蛋白质结构数量非常有限,基于计算机技术的结构预测还处于起步阶段,预测效果还不够理想,且耗费时间较长。41 蛋白质的空间构象蛋白质的空间构象一级结构一级结构:是蛋白质空间构象和特异生物学功能的基础。42二级结构二级结构:ALPHA-螺旋螺旋H-bondIndividualAmino aci
36、d-螺旋螺旋:a result of H-bonding between every fourth peptide bond(via amino and carbonyl groups)along the length of the polypeptide chain 43二级结构二级结构:BETA 折叠折叠BETA SHEET:a result of H-bonding between polypeptide chains44Loop regions-Helixloop-Sheet45三级结构:三级结构:多肽链中全部氨基酸残基的相对空间位置。46四级结构:四级结构:蛋白质分子中各个亚基的空间
37、排布及亚基接触部位的布局和相互作用。47 随着DNA测序技术的发展,DNA序列数量急增,从而也产生大量的蛋白质序列。目前,用实验的方法测定蛋白质结构速度非常慢,这意味着已知序列的蛋白质数量和已测定结构的蛋白质数量的差距将会越来越大。48NUMBER OF PROTEIN ENTRIESNumber of the entries 53,9165 now!49The number of protein structures in PDB.Less than 90,000 recently.NUMBER OF PROTEIN STRUCTURES50 .那么如何缩小这种差距呢?那么如何缩小这种差距呢
38、?51蛋白质二级结构的预测:人工神经网络、遗传算法等技术构建预测方法(PHD、PSIPRED 等)。有效预测率:75%左右 二级结构预测通常作为蛋白质空间结构预测的第一步。蛋白质三维结构的预测:同源性建模、线索化方法、从头预测方法。根据数学计算,由100个氨基酸构成的小蛋白质的空间构象可能会有1050种空间结构,一种氨基酸序列只可能有一种蛋白质结构,这就是计算机预测蛋白质结构的意义所在。52534.蛋白质功能预测蛋白质功能预测阐明蛋白质功能是后基因组时代最重要的内容之一。蛋白质功能的阐明将有助于疾病治疗,药物设计。蛋白质序列数量飞速增长,而相应的功能注释则远远滞后。54 蛋白质功能确定的思路及
39、方法蛋白质功能确定的思路及方法:1.通过相似序列的数据库比对确定功能;2.确定序列特性:疏水性预测跨膜螺旋等 3.通过序列模体数据库等的比对确定功能 555.基因表达谱数据分析基因表达谱数据分析565.5.基因表达谱数据分析基因表达谱数据分析(续续)n基因表达谱数据能够从基因转录水平反映细胞的状态,对于从系统水平了解基因组的功能具有重要价值;n基因表达谱数据可以用于筛选疾病相关基因,揭示疾病的分子机制;n基因表达谱可以用于疾病的分型和诊断;576.疾病基因的预测疾病基因的预测寻找疾病相关基因对于揭示疾病机理,研制疾病的基因诊断与防止手段具有重要意义,对于生物医药产业的发展具有重要作用;目前已经
40、找到约2000个人类遗传疾病致病基因,据估计,人类疾病基因总数约70008000,尚有多余2/3的疾病基因有待发现迄今我国只发现了6个疾病基因;利用生物信息学方法预测疾病基因是有效发现疾病基因的重要途径。587.生物信息学与新药研制生物信息学与新药研制未来的药物研究过程将是基于生物信息知未来的药物研究过程将是基于生物信息知 识挖掘的过程识挖掘的过程数据处理和数据处理和关联分析关联分析发现药物发现药物作用对象作用对象确定靶目标确定靶目标分子分子针对靶目标针对靶目标进行合理的进行合理的药物设计药物设计59基于生物信息学的新药设计基于生物信息学的新药设计60药物靶标识别药物靶标识别现代新药研究与开发
41、关键首先是寻找、确定和制备药现代新药研究与开发关键首先是寻找、确定和制备药物筛选靶标!物筛选靶标!药物靶标是某种疾病起因或特定生化通路中的生物大分子,其活性直接或间接地和疾病或某种性状相关,每一种药物都是通过药物靶点发挥作用!新的药物作用靶点一旦被发现,往往成为一系列新药新药发现的突破口发现的突破口;61四、生物信息学密切相关的学科四、生物信息学密切相关的学科1.生生 物物生物基础理论知识(分子生物学、基因组学、蛋白质组学)对基本的生物学实验有一定的了解(基因测序过程、芯片技术)对数据的后续分析同源比较、进化分析632.数学统计学,是生物信息学的数学基础之一;统计学,是生物信息学的数学基础之一
42、;概率论与随机过程理论,如概率论与随机过程理论,如HMM-HMM-基因识别、药物设计;基因识别、药物设计;运筹学,如动态规划法运筹学,如动态规划法-序列比对;序列比对;最优化理论与算法最优化理论与算法-蛋白质空间结构预测、分子对接蛋白质空间结构预测、分子对接;几何拓扑学几何拓扑学-DNA超螺旋研究、多肽链折叠;超螺旋研究、多肽链折叠;函数论,如傅里叶变换,小波变换;函数论,如傅里叶变换,小波变换;信信息息论论,神神经经网网络络,计计算算数数学学;群群论论,组组合合数数学学等等-分子进化、蛋白质结构预测、序列比对;分子进化、蛋白质结构预测、序列比对;643.3.计算机科学技术计算机科学技术首首先
43、先是是网网络络技技术术和和数数据据库库(特特别别是是关关系系型型数数据据库库)管管理理技技术术,包包括括极极为为重重要要的的实实验验室室数数据据信信息息管管理理系系统(统(LIMSLIMS););数据整合和可视化;数据整合和可视化;数据挖掘(数据挖掘(Data MiningData Mining)与人工智能)与人工智能算法设计算法设计;生物信息软件研制生物信息软件研制计算机语言(计算机语言(C+,java,perl)65五、五、生物信息学产业生物信息学产业生物信息学产业的潜力基础与应用二者兼备基础与应用二者兼备基础与应用二者兼备基础与应用二者兼备许多研究成果可以较快或立即产业化,成为许多研究成
44、果可以较快或立即产业化,成为许多研究成果可以较快或立即产业化,成为许多研究成果可以较快或立即产业化,成为价值很高的产品。价值很高的产品。价值很高的产品。价值很高的产品。是一个发展潜力很大的是一个发展潜力很大的是一个发展潜力很大的是一个发展潜力很大的新兴高技术产业新兴高技术产业新兴高技术产业新兴高技术产业。67例子 只有只有只有只有50505050名员工的德国名员工的德国名员工的德国名员工的德国LionLionLionLion生物信息学公司,将通过扫描生物信息学公司,将通过扫描生物信息学公司,将通过扫描生物信息学公司,将通过扫描公共数据库中的序列来发现公共数据库中的序列来发现公共数据库中的序列来
45、发现公共数据库中的序列来发现500500500500个可能的药物作用靶点,个可能的药物作用靶点,个可能的药物作用靶点,个可能的药物作用靶点,以一亿美元的价格预售给德国以一亿美元的价格预售给德国以一亿美元的价格预售给德国以一亿美元的价格预售给德国BayerBayerBayerBayer公司。公司。公司。公司。美国出现了大批的基于生物信息学的公司,实施了许多美国出现了大批的基于生物信息学的公司,实施了许多美国出现了大批的基于生物信息学的公司,实施了许多美国出现了大批的基于生物信息学的公司,实施了许多生物信息学研究计划,主要与药物设计,基因工程药物,生物信息学研究计划,主要与药物设计,基因工程药物,
46、生物信息学研究计划,主要与药物设计,基因工程药物,生物信息学研究计划,主要与药物设计,基因工程药物,生物芯片,代谢工程与化学工程密切相关。生物信息学生物芯片,代谢工程与化学工程密切相关。生物信息学生物芯片,代谢工程与化学工程密切相关。生物信息学生物芯片,代谢工程与化学工程密切相关。生物信息学工业是知识经济的一个典型,潜力巨大。工业是知识经济的一个典型,潜力巨大。工业是知识经济的一个典型,潜力巨大。工业是知识经济的一个典型,潜力巨大。68 人类科学研究史表明,科学数人类科学研究史表明,科学数据的大量积累将导致重大的科学规据的大量积累将导致重大的科学规律的发现律的发现 69Isaac Newton
47、牛牛 顿顿Johannes Kepler 开普勒开普勒Tycho Brahe 第第 谷谷第一次科学浪潮第一次科学浪潮70天象观测天象观测 大量数据大量数据 行星运动定律行星运动定律 万有引力定律万有引力定律 航空航天技术航空航天技术元素与大量化合物元素与大量化合物元素与大量化合物元素与大量化合物 元素周期表元素周期表元素周期表元素周期表 现代化学化工现代化学化工现代化学化工现代化学化工第二次科学浪潮第二次科学浪潮Dmitri Mendeleev门捷列夫门捷列夫71大量原子光谱数据大量原子光谱数据 量子论量子论 量子力学量子力学 信息技术信息技术Max Karl Ernst Ludwig Planck 普朗克普朗克Albert Einstein 爱因斯坦爱因斯坦Niels Bohr 玻尔玻尔Erwin Schrdinger 薛定谔薛定谔第三次科学浪潮第三次科学浪潮 72基因组超大量的序列和结构数据基因组超大量的序列和结构数据?重大的发现重大的发现第四次科学浪潮第四次科学浪潮?73谢谢 谢谢 大大 家!家!74