《Spark项目实战培训大纲(共3页).docx》由会员分享,可在线阅读,更多相关《Spark项目实战培训大纲(共3页).docx(3页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、精选优质文档-倾情为你奉上Spark项目实战培训大纲第1 章 Spark 的设计与运行原理1、概述2、 Spark 生态系统3、Spark 运行架构l 基本概念l 架构设计l Spark 运行基本流程l RDD 的设计与运行原理4、Spark 的部署方式5、Spark 和Hadoop 的交互6、在spark-shell 中运行代码l spark-shell 命令l 启动spark-shell 7、开发Spark 独立应用程序l 安装编译打包工具l 编写Spark 应用程序代码l 编译打包l 通过spark-submit 运行程序8、 Spark 集群环境搭建l 集群概况l 集群部署方案9、在集
2、群上运行Spark 应用程序l 启动Spark 集群l 采用独立集群管理器l 采用Hadoop YARN 管理器第2 章 RDD 编程实战1、 RDD 编程基础l RDD 创建l RDD 操作l 持久化l 分区l 一个综合实例2、键值对RDD l 键值对RDD 的创建l 常用的键值对转换操作3、数据读写l 文件数据读写l 读写HBase 数据4、综合实例l 求TOP 值l 文件排序l 二次排序第3 章 Spark SQL 实战1、 Spark SQL 简介l Shark功能 l Spark SQL 架构l 为什么推出Spark SQL2、DataFrame 概述3、DataFrame 的创建4
3、、DataFrame 的保存5、 DataFrame 的常用操作6、从RDD 转换得到DataFramel 利用反射机制推断RDD 模式l 使用编程方式定义RDD 模式7、使用Spark SQL 读写数据库l 通过JDBC 连接数据库l 连接Hive 读写数据第4章 Spark Streaming实战1、流计算概述l 静态数据和流数据l 批量计算和实时计算l 流计算概念l 流计算框架l 流计算处理流程2、 Spark Streamingl Spark Streaming 设计l Spark Streaming 与Storm 的对比l Hadoop+Storm”架构转向Spark 架构3、DSt
4、ream 操作概述l Spark Streaming 工作机制l 编写Spark Streaming 程序的基本步骤l 创建StreamingContext 对象4、基本输入源l 文件流l RDD 队列流5、高级数据源l Kafka 简介l Kafka 准备工作l Spark 准备工作l 编写Spark Streaming 程序使用Kafka 数据源第6章 Spark Mllib 实战1、 基于大数据的机器学习2、Spark机器学习库MLlib 概述3、机器学习流水线l 流水线的概念l 流水线工作过程4、特征提取、转换和选择l 特征提取l 特征转换l 特征选择l 局部敏感哈希5、分类算法l 逻辑回归分类器l 决策树分类器6、聚类算法l K-Means 聚类算法l GMM 聚类算法8、协同过滤算法第7章 Spark监控和优化1、Spark UIl 监控界面l 标签类型l 各个界面用途、界面各个元素含义l 执行计划图l 异常分析2、 常见优化分析l 框架配置优化l 应用配置优化l Rdd初始分区数l spark sql的调优l spark stream的调优l shuffle的关注3、 问题关注点l 多表关联l 多数据集处理l Spark可选可视化方案l Spark内存调度l Spark垃圾回收专心-专注-专业