《Hadoop大数据开发实战》教学教案(全).docx

上传人:太** 文档编号:35970002 上传时间:2022-08-24 格式:DOCX 页数:55 大小:177.27KB
返回 下载 相关 举报
《Hadoop大数据开发实战》教学教案(全).docx_第1页
第1页 / 共55页
《Hadoop大数据开发实战》教学教案(全).docx_第2页
第2页 / 共55页
点击查看更多>>
资源描述

《《Hadoop大数据开发实战》教学教案(全).docx》由会员分享,可在线阅读,更多相关《《Hadoop大数据开发实战》教学教案(全).docx(55页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第1章初识Hadoop计划学时2学时内容分析本章主要介绍HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell 命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制 RPC教学目标与教学要求要求学生掌握HDFS的架构和原理、掌握HDFS的Shell和Java API操作方法、 了解Hadoop序列化、了解Hadoop小文件处理方式教学重点HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Ha

2、doop小文件处理、通信机制RPC教学难点HDFS存储架构和数据读写流程、HDFS的Shell命令、Java程序操作HDFS、Hadoop序列化、Hadoop小文件处理、通信机制RPC教学方式课堂讲解及ppt演示第一课时(HDFS简介、HDFS存储架构和数据读写流程、HDFS的Shell命 令、Java程序操作HBFS) Q回顾内容,引出本课时主题.回顾内容,引出本课时的主题上节学习了 Hadoop集群搭建和使用,本节将学习HDFS分布式文件系统 的相关知识。Hadoop的核心是HDFS和MapReduceo HDFS由NDFS系统演 变而来,主要解决海量大数据存储的问题,也是目前分布式文件系

3、统中应用 比拟广泛的一个。本章将带着大家深刻理解和运用HDFS系统。1 .明确学习目标(9)能够了解HDFS(10)能够理解HDFS数据的存储和读取方式(11)能够掌握HDFS的特点(12)能够掌握HDFS的存储架构和数据读写流程(13)能够掌握HDFS的Shell命令(14)能够掌握Java程序操作HDFS知识讲解 HDFS的概念HDFS (Hadoop Distributed File System, Hadoop 分布式文件系统)是一种 通过网络实现文件在多台主机上进行分布式存储的文件系统。分布式存储比 普通存储方式节省时间。例如,现有1。台计算机,每台计算机上有1TB的硬盘。如果将Ha

4、doop 安装在这10台计算机上,可以使用HDFS进行分布式的文件存储。相当于登 录到一台具有10 TB存储容量的大型机器。而用HDFS分布式的文件存储方 式在10台计算机上存储,显然比用普通方式在1台计算机上存储更节省时间, 这就如同3个人吃3个苹果比1个人吃3个苹果要快。1. NameNodeNameNode (名称节点)管理文件系统的命名空间。它负责维护文件系统 树及树内所有的文件和目录。这些信息以两个文件(命名空间镜像文件和编 辑日志文件)的形式永久保存在本地磁盘上。同时NameNode也记录着每个 文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息、,因为 这些信息在系统启

5、动时由数据节点重建。2. DataNodeDataNode (数据节点)是HDFS实例中在单独机器上运行的软件,Hadoop 集群包含一个NameNode和大量的DataNode。一般情况下DataNode以机架的习题教材第3章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第4章MapReduce分布式计算框架计划学时6学时内容分析本章主要介绍认识MapReduce、MapReduce编程组件、MapReduce作业解析、 MapReduce工作原理、Shuffle阶段、优化一数据倾斜、MapReduce典型案例 一排序

6、、MapReduce典型案例一倒排索引、MapReduce典型案例一连接、 MapReduce典型案例 平,均分以及百分比、MapReduce典型案例 过滤敏感 词汇教学目标与教学要求要求学生理解MapReduce的基本原理、理解MapReduce经典案例WorldCount 的实现原理、掌握MapReduce运行流程、掌握MapReduce程序设计方法教学重点MapReduce 编程组件、MapReduce 作业解析、MapReduce 工作原理、Shuffle 阶段、优化一数据倾斜、MapReduce典型案例一排序、MapReduce典型案例 倒排索引、MapReduce典型案例 连接、M

7、apReduce典型案例 平均分以 及百分比、MapReduce典型案例一过滤敏感词汇教学难点MapReduce 编程组件、MapReduce 作业解析、MapReduce 工作原理、Shuffle 阶段、优化一数据倾斜、MapReduce典型案例一排序、MapReduce典型案例 一倒排索引、MapReduce典型案例一连接、M叩Reduce典型案例一平均分以 及百分比、MapReduce典型案例一过滤敏感词汇教学方式课堂讲解及ppt演示第一课时(认识 MapReduce MapReduce 编程组件)回顾内容,引出本课时主题1 .回顾内容,引出本课时的主题上节学习了 HDFS分布式文件系统

8、,Hadoop的数据处理核心为 MapReduce分布式计算框架。这一框架的出现,使得编程人员在不熟悉分布 式并行编程的情况下,可以将自己的程序运行在分布式系统上来处理海量的 数据,因此大数据开发人员需要重点掌握MapReduce的基本原理。2 .明确学习目标(15)能够了解MapReduce核心思想(16)能够理解MapReduce编程模型(17)能够掌握MapReduce编程案例一WorldCount(18)能够掌握InputFormat组件和OutputFormat组件1。知识讲解 MapReduce核心思想MapReduce核心思想将大数据分而治之,即将数据通过一定的数据划分 方法,分

9、成多个较小的具有同样计算过程的数据块,数据块之间不存在依赖 关系,将每一个数据块分给不同的节点去处理,最后将处理的结果进行汇总具体来说,对大量顺序式数据元素或者记录进行扫描和对每个数据元素 或记录做相应的处理并获得中间结果信息的两个过程抽象为M叩操作;将对 中间结果进行和产生最终结果并输出的过程被抽象为Reduce操作。MapReduce提供统一框架来隐藏系统层的细节,实现了自动并行处理, 如计算任务的自动划分和调度、数据的自动化分布式存储和划分、处理数据 与计算任务的同步、结果数据的、系统通信、负载平衡、计算性能 优化处理、处理节点出错检测和失效恢复等。 MapReduce编程模型MapRe

10、duce是一种分布式离线并行计算框架,主要用于大规模数据集(大 于1TB)的并行计算。Hadoop MapReduce可以看作Google MapReduce的克 隆版。MapReduce的特点是易于编程,具有良好的扩展性,具有高容错性,适 合PB级以上海量数据的离线处理。MapReduce的两大核心思想是M叩(映射) 和Reduce (化简)。基于这两大核心思想,MapReduce把数据处理流程分成两 个主要阶段:Map阶段和Reduce阶段。Map阶段负责对数据进行预处理,具体是指通过特定的输入格式读取文 件数据,将读取的数据以键值(Key-Value, K-V)对的形式进行保存。习题教材

11、第4章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第5章Zookeeper分布式协调服务计划学时4学时内容分析本章主要介绍认识Zookeeper Zookeeper安装和常用命令、Zookeeper客户端 编程、Zookeeper典型应用场景教学目标与教学要求要求学生理解Zookeeper的工作原理、熟悉Zookeeper的安装、掌握Zookeeper 的客户端编程方法教学重点Zookeeper女装和帛用命令、Zookeeper客户端编程、Zookeeper典型应用场景教学难点Zookeeper安装和吊用命令、Zook

12、e印er各户端编程、Zookeeper典型应用场景教学方式课堂讲解及ppt演示第一课时(认识Zookeeper、Zookeeper安装和常用命令)回顾内容,引出本课时主题1 .回顾内容,引出本课时的主题上节学习了 MapReduce分布式计算框架,本节将介绍关于Zookeeper的 现关知识。Zoopkeeper是Hadoop集群管理中必不可少的组件,提供了一套分 布式集群管理的机制。在Zoopkeeper的协调下,Hadoop集群可以实现高可 用,保证了集群的稳定性,对于实际生产环境来说,意义重大。本节先带着 大家认识一下Zookeeper,完成Zookeeper的安装,学习一些Zookee

13、per常用命令。2 .明确学习目标(19)能够理解Zookeeper的设计目的(20)能够理解Zookeeper的系统模型(21)能够掌握Zookeeper中的角色(22)能够掌握Zookeeper的工作原理(23)能够掌握Zookeeper单机模式(24)能够掌握Zookeeper全分布式(25)能够掌握Zookeeper服务器常用脚本知识讲解Zookeeper 简介Zookeeper是开源的分布式应用程序协调服务。Zookeeper提供了同步服 务、命名服务、组服务、配置管理服务,较好地解决了 Hadoop中经常出现的 死锁、竞态条件等问题。死锁是在执行两个或两个以上的进程时,由竞争资源或

14、彼此通信而造成 的阻塞现象。竞态条件是指在执行两个或两个以上的进程时,进程执行顺序 对执行后的结果存在影响。Zookeeper可以与需要保证高可用的Hadoop组件搭配使用,例如,HA模 式下的HDFS、HA模式下的YARN、HBase。 Zookeeper的设计目的Zookeeper提供一个协调方便、易于编程的环境,能够减轻分布式应用程 序所承当的协调任务,其设计的主要表达在以下几个方面。(1) 一致性。客户不管连接到哪个Server,看到的都是相同的视图。(2)实时性。Zooke叩er的数据存放在内存当中,可以做到高吞吐、低 延迟。(3)可靠性。组成Zookeeper服务的服务器必须互相知

15、道其他服务器的内容分析本章主要介绍大数据简介、大数据技术的核心需求、Hadoop简介、离线数据 分析流程介绍、大数据学习流程教学目标与教学要求要求学生了解大数据的概念、熟悉大数据的应用场景、了解Hadoop框架、了 解大数据学习流程教学重点Hadoop简介、离线数据分析流程介绍、大数据学习流程教学难点离线数据分析流程介绍、大数据学习流程教学方式课堂讲解及ppt演示习题教材第5章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第6章Hadoop2.0新特性计划学时2学时教学要求内容分析本章主要介绍Hadoop2.0的改进、Y

16、ARN资源管理框架、Hadoop的HA模式教学目标与要求学生熟悉Hadoop2.0的改进与提升、理解YARN架构的原理、理解Hadoop 的HA模式教学重点Hadoop2.0的改进、YARN资源管理框架、Hadoop的HA模式教学难点Hadoop2.0的改进、YARN资源管理框架、Hadoop的HA模式教学方式课堂讲解及ppt演示第一课时(Hadoop2.0的改进、YARN资源管理框架、Hadoop的HA模式)回顾内容,引出本课时主题1.回顾内容,引出本课时的主题上节学习了 Zooke叩er分布式协调服务,本节将介绍关于Hadoop2.0新特 性的现关知识。Hadoop诞生以来,主要分为Had

17、oop 1.0 Hadoop2.0 Hadoop3 .0 三个系列的多个版本。目前最常见的是Hadoop2.0系列。Hadoop2.0指的是第 2代Hadoop,它是从Hadoop 1.0开展而来的,相对于HadoopLO有很多改进。 下面对Hadoop2.0新特性进行详细讲解。2 .明确学习目标(26)能够理解HDFS存在的问题(27)能够理解MapReduce存在的问题(28)能够理解HDFS2.0解决HDFSL0中的问题(29)能够掌握Zookeeper的工作原理(30)能够掌握YARN架构(31)能够掌握YARN的优势(32)能够了解HA模式知识讲解 Hadoop2.0 的改进Hado

18、op 1.0由MapReduce和HDFS组成,在高可用、扩展性方面存在一 些问题。Hadoop 2.0由HDFS、MapReduce和YARN三个分支构成。如图所 ZjS OHADOOPl.OHADOOP2.0MapReduce(cluster resource management&data processing)MapReduce(data processing)Others(data processing)YARN(cluster resource management)HDFS(redundant,reliable storage)HDFS(redundant,reliable st

19、orage)HDFS(redundant,reliable storage) HDFS存在的问题NameNode单点故障。难以应用于在线场景。(1) NameNode压力过大,且内存受限,影响系统扩展性。 MapReduce存在的问题JobTracker 单点故障。(1) JobTracker访问压力大,影响系统扩展性。(3)难以支持除M叩Reduce之外的计算框架,如Spark、Storm Tez等。 HDFS2.0解决HDFS1.0中的问题习题教材第6章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第7章Hive计划

20、学时6学时内容分析本章主要介绍数据仓库简介、认识Hive、Hive安装、Hive数据类型、Hive数 据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例 分析教学目标与教学要求要求学生熟悉Hive安装、掌握Hive架构及其原理、掌握Hive的数据库和表 的操作方法、熟悉Hive函数的使用、熟悉Hive的性能优化教学重点Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析教学难点Hive数据类型、Hive数据库操作、Hive表、Hive表的查询、Hive函数、Hive性能优化、Hive案例分析教学方

21、式课堂讲解及ppt演示第一课时(数据仓库简介、认识Hive、Hive安装、Hive数据类型)回顾内容,引出本课时主题1 .回顾内容,引出本课时的主题上节学习了 Hadoop2.0新特性的相关知识,本节带着大家学习数据仓库、 Hive、安装Hive、Hive数据类型的相关知识。Hive是建立在Hadoop上的数 据仓库工具,可以借助提取、转化、加载技术(Extract-Transform-Load, ETL)存储、查询和分析存储在Hadoop中的大规模数据。Hive的出现使得开发人 员使用相对简单类SQL (Struture Query Language,结构查询语言)语句,就 可以操作Hado

22、op处理海量数据,大大降低了开发人员的学习本钱。2 .明确学习目标(33)能够了解数据仓库的概念(34)能够理解数据仓库的使用(35)能够了解数据仓库的特点和主流的数据仓库(36)能够掌握Hive架构(37)能够理解Hive和关系型数据库比拟(38)能够掌握Hive安装(39)能够掌握Hive数据类型知识讲解数据仓库概述数据仓库是一个面向主题的、集成的、随时间变化但信息本身相对稳定 的数据集合,用于支持管理决策过程。总体来说,数据仓库可以整合多个数 据源的历史数据,进行细粒度的、多维的分析,帮助高层管理者或者业务分 析人员做出商业战略决策或商业报表。数据仓库的使用一个公司的不同工程可能用到不同

23、的数据源,有的工程数据存在MySQL 里面,有的工程存在MongoDB里面,甚至还有些要做第三方数据。如果想把这些数据整合起来,进行数据分析,数据仓库(Data Warehouse, DW)就派上用场了。它可以对多种业务数据进行筛选和整合,用于数据分析、 数据挖掘、数据报表,如下图。数据挖掘数据分析数据报表数据仓库习题教材第7章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第8章HBase分布式存储系统计划学时4学时第一课时(大数据简介、大数据技术的核心需求)&介绍本书,引出本课时主题.介绍本书,引出本课时的主题随着新一

24、代信息技术的迅猛开展和深入应用,数据的规模不断扩大,数 据已日益成为土地、资本之后的又一种重要的生产要素,和各个国家和地区 争夺的重要资源,谁掌握数据的主动权和主导权,谁就能赢得未来。美国奥 巴马政府将数据定义为“未来的新石油”,认为一个国家拥有数据的规模、活 性及解释运用的能力将成为综合国力的重要组成局部,对数据的占有和控制 将成为陆权、海权、空权之外的另一个国家核心权力。一个全新的概念 大数据开始风行全球。本节将学习大数据简介和大数据技术的核心需求的现 关内容。1 .明确学习目标(1)能够熟悉大数据的五大特征(2)能够了解大数据的六大开展趋势(3)能够了解大数据在电商行业、交通行业、医疗行

25、业的应用(4)能够理解大数据核心技术需求知识讲解大数据简介从前,人们用饲养的马来拉货物。当一匹马拉不动一车货物时,人们不 曾想过培育一匹更大更壮的马,而是利用更多的马。同样的,当一台计算机 无法进行海量数据计算时,人们也无需去开发一台超级计算机,而应尝试着 使用更多计算机。下面来看一组令人瞠目结舌的数据:2018年11月11日,支付宝总交易 额2135亿元,支付宝实时计算处理峰值为17.18亿条/秒,天猫物流订单量 超过10亿这场狂欢的背后是金融科技的护航,正是因为阿里巴公司拥有中国首个 具有自主知识产权、全球首个应用在金融核心业务的分布式数据库平台 OceanBase,海量交易才得以有序地进

26、行。分布式集群具有高性能、高并发、 高一致性、高可用性等优势,远远超出单台计算机的能力范畴。大数据的五大特征大数据(Big Data),是指数据量巨大,无法使用传统工具进行处理的数 据集合。通常认为,大数据的典型特征主要表达在以下5个方面:大量 (Volume) 高速(Velocity) 多样(Varity) 价值(Value) 真实性(Veracity), 即所谓的“5V”。内容分析本章主要介绍认识HBase、HBase表设计、HBase安装、HBase Shell常用操 作、HBase编程、HBase过滤器和比拟器、HBase与Hive结合、HBase性能 优化教学目标与教学要求要求学生掌

27、握HBase架构及其原理、掌握HBase的存储流程、熟悉HBase的安装和利用、理解HBase与Hive之间的关系教学重点HBase表设计、HBase Shell常用操作、HBase编程、HBase过滤器和比拟器、HBase与Hive结合、HBase性能优化教学难点HBase表设计、HBase Shell常用操作、HBase编程、HBase过滤器和比拟器、HBase与Hive结合、HBase性能优化教学方式课堂讲解及ppt演示第一课时(认识HBase HBase表设计、HBase安装、HBase Shell常用操作)回顾内容,引出本课时主题.回顾内容,引出本课时的主题上节学习了 Hive,本节

28、将开始认识HBase,还会有HBase表设计、HBase安装和HBase Shell常用操作的相关知识。1 .明确学习目标(40)能够了解 HBase(41)能够掌握HBase的数据模型(42)能够掌握HBase架构(43)能够掌握HBase文件存储格式和存储流程(44)能够掌握HBase和HDFS(45)能够掌握HBase表设计(46)能够独立完成HBase安装(47)能够掌握HBase Shell常用操作知识讲解 HBase简介HBase是一个基于Hadoop的分布式、面向列的开源数据库,对大数据实 现了随机定位和实时读写。HBase 是基于 Google 的 Bigtable 技术实现的

29、,Google Bigtable 利用 GFS 作为其文件存储系统,HBase利用Hadoop的HDFS作为其文件存储系统; Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用Hadoop 的MapReduce来处理HBase中的海量数据;Google Bigtable利用Chubby进 行协同服务,HBase利用Zookeeper进行协同服务。HBase具有以下特点。(1)读取数据实时性强:可以实现对大数据的随机访问和实时读写。(2)存储空间大:可以存储十亿行、百万列、上千个版本的数据。(3)具有可伸缩性:可以通过增删节点实现数据的伸缩性存储。(4)可靠

30、性强:HBase的RegionServer之间可以实现自动故障转移。(5)面向列:面向列(族)的存储和权限控制,列(族)独立检索。(6)数据类型单一:HBase中的数据都是字符串,没有类型。 HBase的数据模型HBase是一个面向列的数据库,数据模型主要有命名空间(Namespace)、 表(Table)、行键(Rowkey)、列族(Column Family) 列(Column) 时间 戳(Timestamp)、单元格(Cell)。习题教材第8章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第9章Flune计划学时4

31、学时内容分析本章主要介绍认识Flume、Flume基本组件、Flume安装、Flume数据流模型、Flume的可靠性保证、Flume拦截器、采集案例教学目标与教学要求要求学生掌握Flume框架及其原理、熟悉Flume的安装和使用、掌握Source、Sink、Channel的使用方法、掌握拦截器的用法教学重点Flume基本组件、Flume数据流模型、Flume的可靠性保证、Flume拦截器、 采集案例教学难点Flume基本组件、Flume数据流模型、Flume的口靠性保证、Flume拦截器、 采集案例教学方式课堂讲解及ppt演示第一课时(认识Fhime、Fhime基本组件、Fhime安装、Fhi

32、me数据流模型)回顾内容,引出本课时主题.回顾内容,引出本课时的主题上节学习了 HBase分布式存储系统,要想实现对海量数据进行分析处理,首先需要将各种应用程序产生的海量数据高效地收集汇总,并传输到指定的 数据存储区,Flume作为高效的分布式数据采集工具应运而生。Flume是一个 基于流数据的简单而灵活的架构,用户通过给Flume添加各种新的功能来满 足个性化的需求。本节将开始认识Flume,学习Flume基本组件的使用,进行 Flume安装和学习Flume数据流模型的相关知识。1 .明确学习目标(48)能够了解 Flume(49)能够掌握Flume基本组件(50)能够掌握Flume安装(5

33、1)能够掌握Flume数据流模型(52)能够掌握HBase Shell常用操作口知识讲解Flume简介Flume最初是Cloudera公司推出的日志采集系统,于2009年被捐赠给了 Apache软件基金会,成为Hadoop相关组件之一。近几年随着Flume的不断 被完善、升级版本的推出,以及Flume内部各种组件的增加,用户在开发过 程中使用Flume的便利性得到了很大的改善。Flume是一种可配置、高可用的数据采集工具,主要用于采集来自各种流 媒体的数据(Web服务器的日志数据等)并传输到集中式数据存储区域。Flume 支持在日志系统中定制各种数据发送方,用于收集数据;并且可以对数据进 行简

34、单处理,将其写到可定制的各种数据接受方(如文本、HDFS、HBase等)。Flume 有两个系歹U: Flume OG 和 Flume NG。, Flume OG 是指 Flume 0.9.x 系列,Flume NG是指Flume Lx系列。目前使用Flume NG的企业较多,因 此本书主要讲解Flume NGo Flume的特点Flume的特点主要表达在以下几个方面。(1)具有复杂的流动性。Flume允许用户构建多跳流,允许使用扇入流 和扇出流、上下文路由和故障跳转的备份路由(故障转移)。多跳流。Flume中可以有多个代理(Agent)。事件(Event)需要通过 多个代理才能到达最终目的地

35、,这样的数据流被称为多跳流。Flume的数据流习题教材第9章习题教学后记Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第 10 章 Sqoop计划学时4学时内容分析本章主要介绍认识Sqoop、Sqoop安装、Sqoop命令、Sqoop数据导入、Sqoop数据导出、Sqoop job教学目标与教学要求要求学生掌握Flume框架及其原理、熟悉Flume的安装和使用、掌握Source、Sink、Channel的使用方法、掌握拦截器的用法教学重点Sqoop命令、Sqoop数据导入、Sqoop数据导出、Sqoop job教学难点Sqoop命令

36、、Sqoop数据导入、Sqoop数据导出、Sqoop job教学方式课堂讲解及ppt演示第一课时(认识Sqoop、Sqoop安装、Sqoop命令、Sqoop数据导入)回顾内容,引出本课时主题1 .回顾内容,引出本课时的主题上节学习了 Flume的相关知识,本节将带着学习进行Sqoop安装、Sqoop 命令、Sqoop数据导入的学习。Sqoop通过Hadoop的MapReduce实现了数据 在关系型数据库与HDFS、Hive、HBase等组件之间的传输。在大数据工程中,Sqoop为大规模数据的处理与存储提供了重要支持。2 .明确学习目标(53)能够了解 Sqoop(54)能够掌握Sqoop原理和

37、架构(55)能够掌握Sqoop安装和Sqoop命令(56)能够掌握将MySQL的数据导入HDFS(57)能够掌握将MySQL的数据导入Hive心知识讲解 Sqoop简介Sqoop是一种用于在Hadoop和结构化数据系统(如关系数据库、大型机) 之间高效传输数据的工具。Sqoop工程开始于2009年,它的出现主要是为了 满足以下两种需求。(1)企业的业务数据大多存放在关系数据库(如MySQL、Oracle)中, 数据量到达一定规模后,如果需要对其进行统计和分析,直接使用关系数据 库处理数据的效率较低,这时可以通过Sqoop将数据从关系型数据库导入 Hadoop的HDFS (或HBase、Hive

38、)进行离线分析。(2)使用Hadoop处理后的数据,往往需要同步到关系数据库中作为业 务的辅助数据,这时可以通过Sqoop将Hadoop中的数据导出到关系数据库。Sqoop担负了将数据导入和导出Hadoop的任务。Sqoop的核心设计思想 是利用MapReduce提高数据传输速度。Sqoop的导入和导出功能就是通过 MapReduce作业来实现的。目前Sqoop主要有两个系列:Sqoop 1和Sqoop2o Sqoop 1最新的稳定版 本是1.4.7, Sqoop2的最新版本是。版本功能不完整,并且与1.4.7 版本不兼容,不适用于生产部署。目前大多数企业中主要使用的是Sqoopl, 因此本书

39、选用147版本进行讲解。 Sqoop原理Sqoop的原理其实就是将导入导出命令转化为MapReduce程序来执行, Sqoop在接收到命令后,都要生成MapReduce程序习题教材第1章习题教学后记习题教材第10章习题Hadoop大数据开发实战教学设计课程名称:Hadoop大数据开发实战授课年级:授课学期:教师成名:课程名称第11章综合工程-电商精准营销计划学时4学时内容分析本章主要介绍工程概述、工程详细介绍、工程模块分析、数据采集、数据清洗、使用数据仓库进行数据分析、可视化教学目标与教学要求要求学生了解工程背景及需求,了解工程中的架构设计,了解数据来源,掌 握数据清洗流程,掌握数据仓库操作流

40、程,掌握应用测试方法。教学重点工程模块分析、数据采集、数据清洗、使用数据仓库进行数据分析、可视化教学难点工程模块分析、数据采集、数据清洗、使用数据仓库进行数据分析、可视化教学方式课堂讲解及ppt演示教学过程第一课时(工程概述、工程详细介绍、工程模块分析、数据采集、数据清洗) Q回顾内容,引出本课时主题1 .回顾内容,引出本课时的主题在前面的章节中,详细讲解了 Hadoop的基础知识与核心技术,以及各相 关组件的使用,包括 Hadoop、Hive HBase Zookeeper Flume Sqoop 等。 本节将通过一个企业级真实工程案例,串联前面所学的知识点,讲解这些知 识点在实际开发过程中

41、的应用。2 .明确学习目标(58)能够了解工程详细介绍(59)能够掌握工程模块分析(60)能够掌握数据采集(61)能够掌握数据清洗C知识讲解工程背景介绍电商网站上线之后,利用大数据技术,收集用户的行为数据,进行多维 度统计分析,掌握网站线上运营情况,将分析结果生成相应的数据报表,提 供给运营部门进行业务分析。运营部门利用数据报表,可以制订出相应的网 站优化方案,调整广告投入,组织举办更好的促销、精准营销等活动。工程架构设计工程架构:数据源(JS、SDK)数据采集(Flume)数据预处理 (M叩Reduce)数据仓库(Hive) 一数据导出(Sqoop) 一数据存储(MySQL) 数据可视化。(

42、1)数据采集。每当用户通过PC端或者移动端访问商城网站时,网站 前台后台程序均会产生日志信息,前台通过JS (JavaScript)收集至U Nginx服 务器中,后台通过SDK (Software Development Kit,软件开发工具包)收集 到Nginx服务器中。然后在Nginx服务器中部署Flume Agent采集软件,实时 监控目录,将产生的日志文件实时的采集到HDFS当中。(2)数据预处理。将采集到的数据按照工程需求进行初步的清洗,得到 工程中需要使用到的字段数据。(3)数据仓库。由于MapReduce操作数据编写流程过于复杂,这里采用 Hive来对数据进行处理。将数据导入到

43、Hive中,按照工程的需求,写SQL 语句来实现。(4)数据存储。处理之前的数据以及Hive的输出数据都存储在HDFS 中,读取十分缓慢,很容易造成超时,这里采用Sqoop工具,将数据导入到 MySQL 中。(5)数据可视化,为了更直观的展示数据结果,对得到的数据结果进行 可视化操作。 工程核心关注点本工程收集不同客户端的用户行为数据,通过MapReduce、Hive进行数 据分析处理,将分析结果数据保存到关系型数据库中。在此过程中需要对几 个核心的关注点进行详细分析。(1)购买率:购买的人数/总人数 购买的人数/查看该商品的总人数。(2)复购率:n次购买的人数/n-1次购买的人数(N=2)。

44、(3)订单数量,订单金额,订单的类型。成功订单数量、成功订单金额、成功订单的类型。退款订单数量、退款订单金额、退款订单的类型。(4)访客人数/会员人数。(5)访客转会员的比例。(6)广告推广效果。(7)网站内容相关的分析(网站的跳出率、页面的跳出率)。 重要概念1 .访客访问网站指定用户、一般称为自然人,区分PC、手机:访客统计指标如下。(1)新增访客:第一次访问系统的访客人数。(2)活跃访客:给定时间段内访问过系统的访客人数(老访客+新访客)。(3)总访客:迄今为止访问过系统的访客总人数。(4)流失访客:上一个时间段内访问过系统,当前时间段内没有访问系 统的访客人数。(5)回流访客:上一个时

45、间段内没有访问过系统,当前时间段内访问过 系统的访客人数2 .会员业务系统中注册用户、直接使用业务系统中会员标识符来标识。访客登 录系统后,就成为会员。会员统计指标如下。(1)新增会员:第一次登录系统的会员人数。(2)活跃会员:给定时间段内登录过系统的会员人数(老会员+新会员)。(3)总会员:迄今为止新增会员的总人数。(4)回流会员。(5)流失会员。(6)访客转会员比例。(7)新增访客转会员的比例。3 .会话用户进入到系统到离开系统这一段时间被成为会话,这段时间的会话时 间长度就叫做会话长度,一个会话中的所有操作都属于同一个会话。会话分 为PC端会话和移动端会话。PC端会话采用浏览器的Session机制在Cookie中存储一个存活时间,在操作的时候,进行判断时间是否过期,如果过期,产生一个新的会话,如果 没有过期,更新操作时间移动端会话采用移动端的Session机制,类似PC端种植Cookie的方式, 在磁盘中写入一个时间进行判断。会话指标如下。(1)会话长度。(2)会话数量。(3)跳出会话的数量(在一个会话中,只访问过一次网站的会话数量)。4 .跳出率跳出率统计指标如下。(1)会话跳出率:跳出会话/总会话数量。(2)页面跳出率:从该页面离开后进入到其他页面的会话数量占进入该 页面会话数量的百分比。5 .外链外链统计指标:不同外链带来的会话数量/访客数量/订单数量。6 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 应用文书 > 解决方案

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁