Spark编程基础及项目实践章节练习题项目3+答案.docx-淘文阁

资源描述

《Spark编程基础及项目实践章节练习题项目3+答案.docx》由会员分享，可在线阅读，更多相关《Spark编程基础及项目实践章节练习题项目3+答案.docx（1页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spark编程基础及项目实践章节练习题项目3+答案习题1. 填空题（1）Spark的运行架构包括应用程序的控制进程Driver Program 、资源管理器Cluster Manager 、工作节点Worker 和执行进程Executor 。（2）Spark的基本计算单元是弹性分布式数据集（Resilient Distributed Dataset，RDD）。（3）Spark中使用DAG 对RDD的关系进行建模。（4）Spark的一个重要特点是基于内存计算的，因而更快。（5）Spark采用堆内内存（On-heap memory）和堆外内存（Off-heap memory）的规划机制。（6

2、）Spark 1.6之后引入了统一内存管理机制，Execution内存和Storage内存共享同一块空间，互相可以动态调整。2. 选择题（1）在Spark运行架构中，以下（ A ）组件负责任务控制。 A. Driver Program B. Worker C. Executor D. Task（2）Spark堆内内存中表示执行内存，主要用于存放计算过程中的临时数据，如执行Shuffle时占用的内存是（ B ）。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory（3）（ B ）内存被对方占用后，可让对

3、方“归还”借用的空间，此时对方会将数据存储到硬盘。而（ A ）内存被对方占用后，无法让对方“归还”，只能等待对方释放资源。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory（4）如果一个RDD在计算过程中出错，可以直接通过它的父RDD重新计算得到，这就是Spark基于（ A ）的容错机制。A. Lineage B. Cache C. Checkpoint D. Driver（5）Spark采用了（ C ）容错机制，就是设定Checkpoint，然后将RDD结果存储到磁盘（HDFS或HBase中）上，当后面的RDD运算过程中出错时，不用计算整个关系链，而只需要从Checkpoint过的RDD那里读取数据继续运算即可。A. Lineage B. Cache C. Checkpoint D. Driver

展开阅读全文