Spark编程基础期末试卷2.doc-淘文阁

资源描述

《Spark编程基础期末试卷2.doc》由会员分享，可在线阅读，更多相关《Spark编程基础期末试卷2.doc（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spark编程基础期末试卷2_学年第_学期_课程期末考试试卷（B）共页（闭卷考试）适用学生：_ 学院_专业_级_班姓名_学号_题目一二三四总分得分一单选题：本大题共20小题，每小题2分，共40分。1. 下列不属于Spark生态系统的是（）。A. Spark Streaming B. Storm C. Shark SQL D. Spark R2. 以下说法正确的是（）。A. 数组中的元素都属于同一个数据类型 B. 默认情况下，Scala使用的是可变映射C. List中不可以存放重复对象 D.Set中可以有重复对象且Set中元素是有序的3. spark.deploy.recove

2、ryMode 不支持那种（）。A.ZooKeeper B. FileSystem C. NONE D. Hadoop4. 表达式“for(i -1 to 3; j - 1 to 3; if i != j)print(i + j) + )的”输出结果是（）。A. 3 4 3 5 4 5 B. 1 2 3 4 5 6 C. 2 4 6 D.1 2 4 65. 有如下函数定义。 def fac(n:Int):Int= var res=0 for(i-1 to n) res += i res则fac(5)的输出结果是（）。A. 14 B. 15 C. 0 D. 56. 关于累加器，下面哪个是错误

3、的（）。A.支持加法 B. 支持数值类型 C. 可并行 D. 不支持自定义类型7. 在图的属性转换过程中，哪个不是图的属性转换方法（）。A. mapEdges B. mapTriplets C. mapDegree D. mapVertices8. 下面哪一种全部是转化操作？（）A. map、take、reduceByKey B. map、filter、collect C. map、zip、 reduceByKey D. map、join、take9. Dstream的转换操作中，将RDD进行聚合的操作是（）。A. flat map() B. reduce() C. count() D

4、. union()10. 下列适合Spark大数据处理场景的是（）。A. 复杂的批处理 B. 基于历史数据的交互式查询C. 基于实时数据流的数据处理 D. PB级的数据存储11. 下列不属于Spark Streaming的输出操作的是（）。A. saveAsTextFiles B. saveAsStreamingFiles C. saveAsHadoopFiles D. saveAsObjectFiles12. DataFrame 和 RDD 最大的区别（）。A.科学统计支持 B.多了 schema C.存储方式不一样 D.外部数据源支持13. 下面哪个属性是图无法获取到的（）。A.

5、VertexRDD B. numVertices C. EdgeVertex D. EdgeRDD14. 下列不是MLlib数据类型的是（）。A. 本地向量 B. 标记向量 C. 本地矩阵 D. 向量矩阵15. 下列不属于大数据技术的是（）。A. 大数据采集技术 B. 大数据存储及管理技术C. 财务报表分析技术 D. 大数据分析及挖掘技术二填空题：本大题有9小题，共10空，每空2分，共20分。1. Scala是_，每个值都是一个对象，包括基本数据类型和函数，每个操作都是方法的调用。Scala是一门_语言，每个函数都是一个值。2. Spark中使用_对RDD的关系进行建模。3. Spark的

6、一个重要特点是基于_计算的，因而更快。4. Scala中没有基本类型的概念，Scala中没有原生的数据类型，所有的数据类型都是_。5. 在特征提取过程中，通过计数方法将一组文本文档转换为向量使用_方法。6. Stage 的 Task 的数量由_的决定。7. Spark Job 默认的调度模式是_。8. 如果一个RDD在计算过程中出错，可以直接通过它的父RDD重新计算得到，这就是Spark基于_的容错机制。9. Spark采用_和堆外内存（Off-heap memory）的规划机制。三简答题：本大题有5小题，每小题6分，共30分。1. spark的有几种部署模式，每种模式特点？2. Spark中

7、Worker的主要工作是什么？3. 什么是RDD宽依赖和窄依赖？4. spark有哪些组件？ 5. Spark为什么比mapreduce快？四程序题：本大题有2小题，每小题10分，共20分。使用Spark编程对E:hello.txt中的单词进行统计，完成程序中的代码。import org.apache.spark.rdd.RDDimport org.apache.spark.SparkConf, SparkContextobject SparkWordCountWithScala def main(args: ArrayString): Unit = val conf = new SparkConf() /设置运行模式为local conf.setMaster(local) /设置任务名 conf.setAppName(WordCount) /创建SparkCore的程序入口 1._ /读取文件生成RDD val file: RDDString = sc.textFile(E:hello.txt) /把每一行数据按照“,”分割 2._ /让每一个单词都出现一次 3._ /单词计数 4._ /按照单词出现的次数降序排序 5._ /将最终的结果进行保存 sortRdd.saveAsTextFile(E:result) sc.stop() 试卷部分：4/5

展开阅读全文