《Spark编程基础及项目实践章节练习题项目3+答案.docx》由会员分享,可在线阅读,更多相关《Spark编程基础及项目实践章节练习题项目3+答案.docx(1页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Spark编程基础及项目实践章节练习题项目3+答案习题1. 填空题(1)Spark的运行架构包括应用程序的控制进程Driver Program 、资源管理器Cluster Manager 、工作节点Worker 和执行进程Executor 。(2)Spark的基本计算单元是弹性分布式数据集(Resilient Distributed Dataset,RDD)。(3)Spark中使用DAG 对RDD的关系进行建模。(4)Spark的一个重要特点是基于内存 计算的,因而更快。(5)Spark采用堆内内存(On-heap memory) 和堆外内存(Off-heap memory) 的规划机制。(6
2、)Spark 1.6之后引入了统一内存管理机制,Execution内存 和Storage内存 共享同一块空间,互相可以动态调整。2. 选择题(1)在Spark运行架构中,以下( A )组件负责任务控制。 A. Driver Program B. Worker C. Executor D. Task(2)Spark堆内内存中表示执行内存,主要用于存放计算过程中的临时数据,如执行Shuffle时占用的内存是( B )。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory(3)( B )内存被对方占用后,可让对
3、方“归还”借用的空间,此时对方会将数据存储到硬盘。而( A )内存被对方占用后,无法让对方“归还”,只能等待对方释放资源。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory(4)如果一个RDD在计算过程中出错,可以直接通过它的父RDD重新计算得到,这就是Spark基于( A )的容错机制。A. Lineage B. Cache C. Checkpoint D. Driver(5)Spark采用了( C )容错机制,就是设定Checkpoint,然后将RDD结果存储到磁盘(HDFS或HBase中)上,当后面的RDD运算过程中出错时,不用计算整个关系链,而只需要从Checkpoint过的RDD那里读取数据继续运算即可。A. Lineage B. Cache C. Checkpoint D. Driver