《生物信息学概论A-课件.ppt》由会员分享,可在线阅读,更多相关《生物信息学概论A-课件.ppt(67页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、生物信息学生物信息学Bioinformatics4/15/20231理论课讲授内容理论课讲授内容第一讲第一讲 生物信息学概论生物信息学概论第二讲第二讲 医学信息学基础医学信息学基础第三讲第三讲 信息学基本技术信息学基本技术第四讲第四讲 生物信息学中的分子生物学基础生物信息学中的分子生物学基础第五讲第五讲 生物信息检索工具生物信息检索工具第六讲第六讲 生物信息浏览工具生物信息浏览工具4/15/20232第七讲第七讲 生物信息中心生物信息中心第八讲第八讲 生物信息重要数据库生物信息重要数据库第九讲第九讲 生物医学文献生物医学文献第十讲第十讲 生物信息与药学生物信息与药学第十一讲第十一讲 生物信息与
2、生物信息与PCR第十二讲第十二讲 生物信息学与基因芯片生物信息学与基因芯片4/15/20233生物生物信息信息学概论学概论4/15/20234三大自然科学之谜三大自然科学之谜宇宙的起源宇宙的起源生命的诞生生命的诞生思维的奥秘思维的奥秘4/15/202364/15/20237Whatisbioinformatics?fromBioinformaticsandcomputational biologyinvolvetheuseoftechniquesincludingappliedmathematics,informatics,statistics,computerscience,artifici
3、alintelligence,chemistry,andbiochemistrytosolvebiologicalproblemsusuallyonthemolecularlevel.Researchincomputationalbiologyoftenoverlapswithsystemsbiology.Majorresearcheffortsinthefieldincludesequencealignment,genefinding,genomeassembly,proteinstructurealignment,proteinstructureprediction,predictiono
4、fgeneexpressionandprotein-proteininteractions,andthemodelingofevolution.4/15/20238 生物学数据的收集、存储、管理与提供生物学数据的收集、存储、管理与提供 基因组序列信息的提取和分析基因组序列信息的提取和分析 功能基因组相关信息分析功能基因组相关信息分析 生物大分子结构模拟和药物设计生物大分子结构模拟和药物设计 生物信息分析的技术与方法研究生物信息分析的技术与方法研究 应用与发展研究应用与发展研究生物信息学的主要研究内容生物信息学的主要研究内容4/15/202310生物学家生物学家(生物学问题生物学问题)数学物理学
5、家数学物理学家计算机科学家计算机科学家(基础理论问题基础理论问题)工程师工程师(技术应用)(技术应用)计算生物学计算生物学/生物信息学:生物信息学:三种科学文化的融合三种科学文化的融合4/15/202311生命信息系统生命信息系统生物所处的时空系统生物所处的时空系统 物质系统,信息传递与控制,能量物质系统,信息传递与控制,能量4/15/202313广义概念图示4/15/202315狭义概念图示狭义概念图示4/15/202316生物学基础速递生物学基础速递分子水平分子水平细胞细胞个体生命个体生命生命之树生命之树4/15/202318生命的分子基础生命的分子基础细胞细胞/分子水平分子水平DNA/R
6、NA蛋白质蛋白质糖糖脂类脂类 4/15/202319DNA结构和碱基互补原理结构和碱基互补原理4/15/202320中心法则中心法则4/15/202321中心法则的发展中心法则的发展遗传信息遗传信息DNA、RNA核苷酸序列核苷酸序列氨基酸氨基酸病毒病毒/肽肽表观遗传学表观遗传学4/15/202322曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划4/15/20232460年代初,美国总统年代初,美国总统Kennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因
7、组计划(HGP,Human Genome Project)目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘目标:整体上破解人类遗传信息的奥秘为什么提出为什么提出为什么提出为什么提出HGPHGP?4/15/202325 DNA:遗传物质遗传物质(遗传信息的载体遗传信息的载体)双螺旋结构双螺旋结构 A,C,G,T四种基本字符的复杂文本四种基本字符的复杂文本 基因基因(Gene):具有遗传效应的具有遗传效应的DNA分子片段分子片段DNADNA、基因、基因组、基因、基因组、基因、基因组、基因、基因组4/15/202326尽管比之于人类登月,尽管比之
8、于人类登月,HGP的投入资金的投入资金要少得多,但要少得多,但HGP对人类生活的影响要对人类生活的影响要更为深远更为深远。因为随着这个计划的完成,。因为随着这个计划的完成,DNA分子中编码的分子中编码的遗传信息将对人类存遗传信息将对人类存在的化学基础作出最终的回答在的化学基础作出最终的回答。这将不。这将不仅帮助我们理解我们是如何作为健康的仅帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将在化学水人发挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、平上解释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中
9、的作用。毕竟害人类健康的疾病中的作用。毕竟对人对人类自身更深入的了解是人类活动中最重类自身更深入的了解是人类活动中最重要的一个部分。要的一个部分。Watson,1990,Science4/15/202328HGP的历史回顾的历史回顾1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组因组DNA序列的意义序列的意义1985 Dulbecco在在Science撰文撰文“肿瘤研究的转折点肿瘤研究的转折点:人人 类基因组的测序类基因组的测序”美国能源部美国能源部(DOE)提出提出“人类基因组计划人类基因组计划”草案草案1987 美国能源部和国家
10、卫生研究院(美国能源部和国家卫生研究院(NIH)联合为)联合为“人类人类 基因组计划基因组计划”下拨启动经费约下拨启动经费约550万美元万美元1989 美国成立美国成立“国家人类基因组研究中心国家人类基因组研究中心”,Watson担担任任 第一任主任第一任主任1990.10 经美国国会批准,人类基因组计划正式启动经美国国会批准,人类基因组计划正式启动4/15/2023291997 大肠杆菌大肠杆菌(E.coli)全基因组测序完成全基因组测序完成1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 Celera公司加入,与公共领
11、域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 第第5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划4/15/2023311999.7 第第5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组国际公共领域宣布完成第一个植物基因组拟南芥全基拟南芥全基 因组的测序工作因组的测序工作Drosophila
12、 melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥4/15/2023322001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面2000.6.26 公共领域和公共领域和Celera公司同时宣布完成人类基因组工作草图公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果刊文发表国际公共领域结果2001.2.16 Science刊文发表刊文发表Celera公司及其合作者结果公司及其合作者结果4/15/202333我国对人类基因组计划的贡献我国对人类基因组计划的贡献4/15/202334HG
13、PHGP带来的科学挑战带来的科学挑战带来的科学挑战带来的科学挑战随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为分析成为HGP的一项重要的工作的一项重要的工作 发现生物学发现生物学规律规律解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和计算技术和计算技术4/15/202335 各学科参与、协作:生命科学、数学、物理学、化学、计算机各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会
14、科学科学、材料科学以及伦理、法律等社会科学 首要科学问题首要科学问题 如何找到记载在基因组如何找到记载在基因组DNA一维结构上控制生命时间、空间一维结构上控制生命时间、空间 的调控信息的编码方式和调节规律。的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学应用数学、复杂系统理论、信息论、非线性科学 催生催生生物信息学生物信息学、计算生物学计算生物学 芯片技术芯片技术 交叉性技术领域:物理学、微电子信息技术、生化技术、信交叉性技术领域:物理学、微电子信息技术、生化技术、信 息技术、自动化、材料科学息技术、自动化、材料科学 结构生物学结构生物学 前沿领域之一:生物物理学、生
15、物化学、晶体学、波谱学、前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及光谱学以及X射线晶体衍射技术、核磁共振技术射线晶体衍射技术、核磁共振技术4/15/202336系统生物学系统生物学(Systems Biology):由分析为主走向分析与综合并举的系统方法由分析为主走向分析与综合并举的系统方法 微观微观还原论还原论 整体整体系统论系统论统一生物学统一生物学(General Biology):探索生命活动本质,产生统一的生命观和统一的生物学探索生命活动本质,产生统一的生命观和统一的生物学实验、理论、计算生物学实验、理论、计算生物学:(Experimental,Theoretic
16、al,Computational Biology)生命科学与数、理、化、计算机等学科的大综合、大交叉生命科学与数、理、化、计算机等学科的大综合、大交叉生物技术的产业化生物技术的产业化(Biotechnology):基础研究转化为生产力基础研究转化为生产力 生物工程技术生物工程技术农、林、医药农、林、医药现代生命科学发展趋势现代生命科学发展趋势4/15/202337生物大分子的结构与功能研究生物大分子的结构与功能研究基因组与细胞的研究基因组与细胞的研究基因组比较研究基因组比较研究关于遗传、发育、分化、进化的综合理论研究关于遗传、发育、分化、进化的综合理论研究脑科学和神经科学研究脑科学和神经科学研
17、究行为科学研究行为科学研究生态学研究生态学研究人体功能研究人体功能研究研究手段:研究手段:实验、理论、计算相结合实验、理论、计算相结合现代生命科学发展热点现代生命科学发展热点4/15/202338基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR生物分子数据的收集与管理4/15/202339数据库搜索及序列比较数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较寻找相搜索同源序列在一定程度上就是通过序列比较寻找相似序列似序列 序列比较序列比较的一个基本操作就是的一个基本操作就是
18、比对比对(Alignment),即将),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种两个序列共有的排列顺序,这是序列相似程度的一种定性描述定性描述多重序列比对多重序列比对研究的是多个序列的共性。序列的多重研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。究一组蛋白质之间的进化关系。4/15/202340基
19、因组序列分析基因组序列分析 遗传语言分析遗传语言分析天书天书 基因组结构分析基因组结构分析基因识别基因识别基因功能注释基因功能注释基因调控信息分析基因调控信息分析基因组比较基因组比较4/15/202341基因表达数据的分析与处理基因表达数据的分析与处理基因表达数据分析基因表达数据分析是目前生物信息学研究的热是目前生物信息学研究的热 点和重点点和重点 目前对基因表达数据的处理主要是进行目前对基因表达数据的处理主要是进行聚类分聚类分 析析,将表达模式相似的基因聚为一类,在此基将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 所用方法所用方法主要
20、有:相关分析方法、模式识别技主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法映射神经网络、主元分析方法 等等表达数据表达数据缺点缺点:仅反映仅反映mRNA丰度,噪声,丰度,噪声,4/15/202342蛋白质结构预测蛋白质结构预测 蛋白质的生物蛋白质的生物功能功能由蛋白质的由蛋白质的结构结构所决定,蛋所决定,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径蛋白质结构预测分为蛋白质结构预测分为:二级结构预测二级结构预测空间结构预测空间结构预测 蛋白质折叠蛋白质折叠4/15/2
21、02343二级结构预测二级结构预测在一定程度上二级结构的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:在二级结构预测方面主要方法有:立体化学方法立体化学方法图论方法图论方法统计方法统计方法最邻近决策方法最邻近决策方法基于规则的专家系统方法基于规则的专家系统方法分子动力学方法分子动力学方法人工神经网络方法人工神经网络方法 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统4/15/202344空间结构预测空间结构预测在空间结构预测方面,比较成功的理论方法是在空间结构预测方面,比较成功
22、的理论方法是同源模型法同源模型法 该方法的依据是:相似序列的蛋白质倾向于折该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 4/15/202345 生物信息学当前的主要任务生物信息学当前的主要任务 当今生物信息学界的大部分人当今生物信息学界的大部分人都把注意力集中在都把注意力集中在基因组、蛋白质组、基因组、蛋白质组、蛋白质结构蛋白质结构以及与之相结合的以及与之相结合的药物设药物设计计上,随蛋白组学、代谢组学进一步上,随蛋白组学、代谢组学进一步
23、的发展,将在的发展,将在整体整体水平进行。水平进行。4/15/202346基因组基因组 新基因的发现新基因的发现 通过计算分析从通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,)序列库中拼接出完整的新基因编码区,也就是通俗所说的也就是通俗所说的“电子克隆电子克隆”;通过计算分;通过计算分析从基因组析从基因组DNA序列中确定新基因编码区,经序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成
24、上的差异、根据高维分布非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。法和根据密码学方法等。4/15/202347非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 4/15/202348 非蛋白编码区约占人类基因组的非蛋白编码区约占人类基因组的95%,其生物学意,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基白,
25、一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知是基于已有的已经为实验证实的所有功能已知的的DNA元件的序列特征,预测非蛋白编码区中可能元件的序列特征,预测非蛋白编码区中可能含有的功能已知的含有的功能已知的DNA元件,从而预测其可能的生元件,从而预测其可能的生物学功能,并通过实验进行验证;物学功能,并通过实验进行验证;另一种另一种则是通过则是通过数理理论直接探索非蛋白编码区的新的未知的序列数理理论直接探索非蛋白编码区的新的未
26、知的序列特征,并从理论上预测其可能的信息含义,最后同特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。样通过实验验证。4/15/202349基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出是基因组中所有功能单元相互作用共同制造出来的。来的。基因芯片基因芯片技术由于可以监测基因组在各技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为种时间断面上的整体转录表
27、达状况,因此成为该领域中一项非常重要和关键的实验技术,对该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体从中获得基因组运转以及调控的整体系统的机系统的机制制或者是网络机制,便成了生物信息学在该领或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。域中首先要解决的问题。4/15/202350基因组演化与物种演化基因组演化与物种演化(生命之树)4/15/202351 尽管已经在分子演化方面取得了许多重要的成就,尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现
28、象,就想阐明物但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有之间有98%-99%98%-99%的结构基因和蛋白质是相同的,然而表的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组
29、织础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,本上决定着物种个体的发育和生理,因此,从基因组整从基因组整体结构组织和整体功能调节网络方面,结合相应的生理体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。真实演化历史的最佳途径。4/15/202352
30、 基因组对生命体的整体控制必须通过它所表达的全部基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能蛋白质来执行,由于基因芯片技术只能反映从基因组到反映从基因组到RNA的转录水平上的表达的转录水平上的表达情况,由于从情况,由于从RNA到蛋白质还到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者不能最终掌握生物功能具体执行者蛋白质的整体表蛋白质的整体表达状况;达状况;近几年在发展基因芯片的同时,人们也发展了一套研近几年在发展基因芯片的同时,人们也发展了一套研究究基因组所有蛋白质产物表
31、达情况基因组所有蛋白质产物表达情况蛋白质组蛋白质组研究技研究技术,从技术上来讲包括术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和和质谱质谱测序技测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用要的就是如何运用生物信息学理论方法生物信息学理论方法去分析所得到的去分析所得到的巨量数据,从中还原出巨量数据,从中还原出生命运转和调控的整
32、体系统生命运转和调控的整体系统的分的分子机制。子机制。蛋白质组蛋白质组 4/15/202353 基因组和蛋白质组研究的迅猛发基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来质的功能是通过其三维高级结构来执行的,而且执行的,而且蛋白质三维结构也不蛋白质三维结构也不一定是静态的,在行使功能的过程一定是静态的,在行使功能的过程中其结构也会相应的有所改变中其结构也会相应的有所改变。因因此,得到这些新蛋白的完整、精确
33、此,得到这些新蛋白的完整、精确和动态的和动态的三维结构三维结构就成为摆在我们就成为摆在我们面前的紧迫任务。目前除了通过诸面前的紧迫任务。目前除了通过诸如如X射线晶体结构分析、多维核磁共射线晶体结构分析、多维核磁共振(振(NMR)波谱分析和电子显微镜二)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,维晶体三维重构(电子晶体学,EC)等物理方法得到)等物理方法得到蛋白质三维结蛋白质三维结构构蛋白质结构蛋白质结构 4/15/202354 另外一种广另外一种广泛使用的方法就是泛使用的方法就是通过通过计算机辅助预计算机辅助预测测的方法,目前,的方法,目前,一般认为蛋白质的一般认为蛋白质的折叠类型只有
34、数百折叠类型只有数百到数千种,远远小到数千种,远远小于蛋白质所具有的于蛋白质所具有的自由度数目,而且自由度数目,而且蛋白质的折叠类型蛋白质的折叠类型与其氨基酸序列具与其氨基酸序列具有相关性,这样就有相关性,这样就有可能直接从蛋白有可能直接从蛋白质的氨基酸序列通质的氨基酸序列通过计算机辅助方法过计算机辅助方法预测出蛋白质的三预测出蛋白质的三维结构维结构 4/15/202355新药设计新药设计 4/15/202356 随着结构生物学的发展,相当数量的蛋白随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识
35、的药物设计成为当前的基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供热点。生物信息学的研究不仅可提供生物大分子生物大分子空间结构的信息空间结构的信息,还能提供还能提供电子结构电子结构的信息,如的信息,如能级、表面电荷分布、分子轨道相互作用等以及能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息动力学行为的信息,如生物化学反应中的能量变如生物化学反应中的能量变化、电荷转移、构象变化等。化、电荷转移、构象变化等。理论模拟理论模拟还可研究还可研究包括生物分子及其周围环境的包括生物分子及其周围环境的复杂体系复杂体系和生物分和生物分子的子的量子效应量子效应。结构结构 功
36、能功能 行为行为4/15/202357 生物信息学的任务远不止于此。在以生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数上工作的基础上,最重要的是如何运用数理理论成果对生物体进行理理论成果对生物体进行完整系统完整系统的数理的数理模型描述,使得人类能够从一个更加明确模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来的角度和一个更加易于操作的途径来认识认识和控制自身以及所有其他的生命体和控制自身以及所有其他的生命体4/15/202358生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科,它更是一种重要的研究开发工具。它更是一种重要的研究开发工具。从
37、从科学的角度科学的角度来讲,它是一门研究生物和生物相关来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。测数据中获得对生命运行机制的详细和系统的理解。从从工具的角度工具的角度来讲,它是今后几乎进行所有生物来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵手和动力机,只有基于生物(医药)研究开发所必需的舵手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理
38、所提供的理论信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择指导和分析,我们才能选择正确的研发方向正确的研发方向,同样,只有同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。理和评价新的观测数据并得到准确的结论。4/15/202359生物信息学的研究意义生物信息学的研究意义生物信息学将是生物信息学将是生物信息学将是生物信息学将是2121世纪生物学的核心世纪生物学的核心世纪生物学的核心世纪生物学的核心 认识生物本质认识生物本质了解生物分子信息的组织和结构,破译基因了解生物分
39、子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系组信息,阐明生物信息之间的关系改变生物学的研究方式改变生物学的研究方式 改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法在医学上的重要意义在医学上的重要意义为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据为设计新药提供依据为设计新药提供依据4/15/202360生物信息学系统化概图4/15/202361生物信息学所用的方法和技术生物信息学所用的方法和技术 1、数学统计方法数学统计方法(高维、样本量的问题高维、样本量的问题)2、动态规划方法、动态规划方法 3、机器学习与模式识别技术、机器学习与模式识别技术(从数
40、据中学习)(从数据中学习)4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、专家系统、专家系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子的计算机模拟、生物分子的计算机模拟10、因特网(、因特网(Internet)技术)技术(Grid计算计算)。4/15/202362科学前沿问题:科学前沿问题:生命过程的定量研究和系统整合生命过程的定量研究和系统整合 主要研究方向:主要研究方向:基因语言及调控基因语言及调控功能基因组学功能基因组学模式生物学模式生物学表观遗传学及非编码核糖核酸表观遗传学及非编码核糖核
41、酸生命体结构功能及其调控网络生命体结构功能及其调控网络生命体重构生命体重构生物信息学生物信息学计算生物学计算生物学系统生物学系统生物学极端环境中的生命特征极端环境中的生命特征生命起源和演化生命起源和演化系统发育与进化生物学系统发育与进化生物学等。等。4/15/202363一切从基因组开始“基因组到生命”(GenomestoLife,GTL)计划4/15/202364时刻铭记时刻铭记 实验永远起着决定作用实验永远起着决定作用 计算计算/理论生物学的发展离不理论生物学的发展离不开实验生物学的贡献开实验生物学的贡献 实验生物学日益依赖计算实验生物学日益依赖计算/理理论生物学的指导论生物学的指导 重视
42、基础研究,原创重视基础研究,原创!21212121世纪生命科学世纪生命科学世纪生命科学世纪生命科学理理理理论论论论计计计计算算算算实实实实验验验验数学与物理科学数学与物理科学数学与物理科学数学与物理科学计算生物学计算生物学/理论生物学与传统生物学的关系理论生物学与传统生物学的关系4/15/202365现代生物医学信息学研究的基本问题现代生物医学信息学研究的基本问题 医学和生物学数据库的建立和搜索医学和生物学数据库的建立和搜索 DNA和蛋白质序列分析和蛋白质序列分析 预测基因组的结构与功能预测基因组的结构与功能 预测蛋白质的结构和功能预测蛋白质的结构和功能 基因组数据的分析基因组数据的分析 比较基因组学和系统发生遗传学研究比较基因组学和系统发生遗传学研究 了解代谢、信号传导和基因调节的途径、相互作了解代谢、信号传导和基因调节的途径、相互作用和相互调节的关系用和相互调节的关系 分析脑和神经系统的功能和学习认知行为的本质分析脑和神经系统的功能和学习认知行为的本质 疾病发病的分子机制、疾病的基因诊断、治疗、疾病发病的分子机制、疾病的基因诊断、治疗、预防和人类保健预防和人类保健4/15/202366谢谢!谢谢!4/15/202367