《第5章 Hadoop概论ppt课件.ppt》由会员分享,可在线阅读,更多相关《第5章 Hadoop概论ppt课件.ppt(21页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、在此输入您的封面副标题第5章 Hadoop概论 第5章Hadoop概论概论05导学了解 Hadoop的核心架构 Hadoop的医学应用掌握 Hadoop主要核心模块的功能 Hadoop是使用Java编写的,在分布式服务器集群上,利用并行处理技术,存储海量数据并运行分布式分析应用的开源框架,即平台。5.1Hadoop简介5.1.1Hadoop的概念及核心组成Hadoop主要由两个核心子项目组成:MapReduce与HDFS。除此之外,Hadoop的核心架构还包括Common与YARN两个模块。是一种计算模型及软件架构,用于编写在Hadoop上运行的应用程序。1.MapReduce分布式文件系统负
2、责Hadoop应用程序的存储部分,其创建数据块的多个副本,并集群分发它们到计算节点。2. HDFS包含Java库和其他Hadoop组件所需的实用工具。3. Common4. YARN可以为Hadoop应用提供统一的集群资源管理和调度。5.1.1Hadoop的概念及核心组成 Hadoop数据处理是在分布式计算环境中执行与数据有关应用程序的过程。5.1.2Hadoop的处理流程在该流程中,首先将大文件按默认64M大小被划分为数据块,并且分布存储在集群中。其次由Hadoop开始调用Map对这些数据块进行计算;接下来Reduce将多个任务的输出作为整个作业的输出,保存在HDFS上;然后Hadoop负责
3、将Map的输出进行整理并作为Reduce的输入; 最后得到Results,Results为Big data通过Hadoop集群处理后得到的结果。5.1.2Hadoop的处理流程5.1.3Hadoop的功能Hadoop利用并行机制,能够有效的自动分配数据和工作,提高大数据分析效率。大数据高效分析2.可扩展性当在Hadoop集群中某一节点发生故障的情况下,可以使用备份在其它节点上的数据对故障节点进行数据处理与恢复。3.容错性Hadoop会将输入的数据备份到集群其他节点,服务器可以随时添加或从集群中动态删除数据 处理大数据时,使用高端服务器是相当昂贵的,但是作为替代,可以将许多PC机关联在一起,作为
4、一个分布式系统的机器集群。5.2Hadoop的实现方法 Hadoop集群中每个节点的角色5.2Hadoop的实现方法 环境准备5.2Hadoop的实现方法 Hadoop 3.0需要配置的主要文件包括core-site.xml、hdfs-site.xml、mapred-site.xml等。5.2Hadoop的实现方法 在进行具体应用之前,可以通过浏览器访问ha01来验证Hadoop是否成功启动5.2Hadoop的实现方法 Hadoop在医学相关领域有许多应用案例,包括提高海量医学图像检索效率、辅助医生进行诊断,构建医疗平台和疾病的预测等。5.3Hadoop在医学领域的应用 基于Hadoop的医疗平台的设计5.3Hadoop在医学领域的应用 以Hadoop技术框架为基础,将医疗平台的框架设计为数据层、控制层和应用层三个部分。5.3Hadoop在医学领域的应用 基于Hadoop的医疗平台的数据处理流程由数据采集、数据清洗、数据聚合、数据备份、数据导出等五部分组成。5.3Hadoop在医学领域的应用 课堂小实验:在百度指数中体现疾病的指数状况5.3Hadoop在医学领域的应用小结 通过本章的学习,读者将会对Hadoop有初步的认知,并且能够了解基于Hadoop技术,可以在多方面分析医疗行业的信息,在临床以及科研上实现对医学大数据的探索。中国医科大学