《(1.3)--2.大数据处理架构Hadoop1_Hadoop概述.pdf》由会员分享,可在线阅读,更多相关《(1.3)--2.大数据处理架构Hadoop1_Hadoop概述.pdf(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据技术原理与应用大数据技术原理与应用第第2 2讲讲 大数据处理架构大数据处理架构HadoopHadoop(1 1)学习目标学习目标 了解了解Hadoop由来、用途、特性由来、用途、特性 了解了解Hadoop的生态系统的生态系统 掌握掌握Hadoop的核心组成的核心组成 掌握掌握Linux系统安装方法系统安装方法 掌握掌握Linux系统配置内容和方法系统配置内容和方法 掌握掌握Hadoop集群搭建内容和方法集群搭建内容和方法 掌握掌握Hadoop集群测试方法集群测试方法教学内容教学内容 2.1 Hadoop概述概述 2.2 Hadoop生态系统生态系统 2.3 Linux系统安装系统安装 2
2、.4 Linux系统配置系统配置 2.5Hadoop集群搭建集群搭建 2.6Hadoop集群测试集群测试2.1Hadoop概述概述系统瓶颈存储容量读写速度计算效率Google大数据BigTableMapReduceGFS Google只发表了相关的技术论文,但是没有开放源只发表了相关的技术论文,但是没有开放源代码。代码。在在2009年年5月,月,Hadoop更是把更是把1TB数据排序时间缩短数据排序时间缩短到到62秒。秒。Hadoop从此名声大震,迅速发展成为大数从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并成为据时代最具影响力的开源分布式开发平台,并成为事实上的大数据
3、处理标准事实上的大数据处理标准。一个模仿一个模仿Google大数据技术的开源实现。大数据技术的开源实现。2.1.1Hadoop由来由来 Hadoop名称的由来名称的由来虚构的名词。Hadoop作者的孩子给一个棕黄色的大象样子的玩具起的名字。Apache Lucene项目的创始人Doug Cutting,开发文本搜索库2.1.1Hadoop由来由来Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中。Hadoop被公认为行业大数据标准开源软件,在
4、分布式环境下提供了海量数据的处理能力。几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如谷歌、雅虎、微软、思科、淘宝等,都支持Hadoop。2.1.2Hadoop是什么?是什么?Hadoop是一个能够对大量数据进行分布式处理的软是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性:进行处理的,它具有以下几个方面的特性:高可靠性 高效性 高可扩展性 高容错性 成本低 运行在Linux平台上 支持多种编程语言2.1.3Hadoop的特性的特性总结总结Hadoop是一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构。Hadoop具有高可靠性、高效性、高可扩展性、高容错性、成本低、运行在Linux平台上、支持多种编程语言。Hadoop为什么会成为为什么会成为事实上的大数据事实上的大数据处理标准处理标准?问题思考谢谢观看!