Spark编程基础期末试卷1.doc-淘文阁

资源描述

《Spark编程基础期末试卷1.doc》由会员分享，可在线阅读，更多相关《Spark编程基础期末试卷1.doc（4页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Spark编程基础期末试卷1_学年第_学期_课程期末考试试卷（A）共页（闭卷考试）适用学生：_ 学院_专业_级_班姓名_学号_题目一二三四总分得分一单选题：本大题共15小题，每小题2分，共30分。1. 下列哪个不是大数据的特征？（）A. Volume B. Variety C. Velocity D. Variance2. 下列List的定义中不正确的是（）。A. val number:ListInt = 1:2:3:Nil B. val name:ListString = Tom:(Jack:(Lucy:Nil)C.val list:String = List(“a”, “

2、b”, “c”) D. val number:ListInt = List(1, 2, 3, 4, 5)3. 在图的创建过程中，哪个不是图的创建方法（）。A. apply B. fromEdges C. fromVertexs D. fromEdgeTuples4. 下列函数的定义中不正确的是（）。A. def add(x:Int, y:Int):Int = x + y B.def minus(x:Int, y:Int) = return x yC. def addFun(x:Int)(y:Int) = x * y D. val add = (a:Double, b:Double) = a

3、 + b5. Spark堆内内存中表示执行内存，主要用于存放计算过程中的临时数据，如执行Shuffle时占用的内存是（）。A. Storage Memory B. Execution Memory C. User Memory D. Reserved Memory6. 下列不是Spark的部署模式的是（）。A. 单机式 B. 单机伪分布式 C. 列分布式 D. 完全分布式7. 下列哪个不可以作为Spark Streaming的输入数据流？（）A. Kafka B. Twitter C. TCP套接字 D. Openstack8. 下列不是划窗操作重要参数是（）。A. 批处理间隔 B.

4、窗口间隔 C. 滑动间隔 D. 输入流间隔9. 下面的Scala语句能正确执行的是（）。A. val a = 2; a = 3 B. var a = 2; a = 3 C. var a = 2; a = “3” D. val a = 2; a = “3”10. 下面哪个端口不是 spark 自带服务的端口。（）A.8080 B.4040 C.8090 D.1808011. 关于广播变量，下面哪个是错误的。（）A 任何函数调用 B 是只读的 C 存储在各个节点 D 存储在磁盘或 HDFS12. Master 的 ElectedLeader 事件后做了哪些操作。（）A. 通知 driver

5、 B.通知 worker C.注册 application D.直接 ALIVE13. 下面哪个不是图内部存在的操作（）。A. 图结构转换操作 B. 图关联操作 C. 图近邻聚合操作 D. 图划分操作14. 下面哪个不是MLlib的特征选择方法（）。A. VectoerSlicer B. KafSelector C. Rformula D. ChiSqSelector15. 按照任务划分，下列不是机器学习模型的是（）。A. 回归模型 B. 分类模型 C. 结构化学习模型 D. 结构化统计模型二填空题：本大题8小题，共10空，每空2分，共20分。1. Spark的基本计算单元是_。2. S

6、cala运行在_之上，源代码通过scalac编译器编译成Java字节码，Scala兼容现有的Java程序。3. 如果想把一列特征进行数值化，使得相应的特征索引化要使用_方法。4. 默认的存储级别是_。5. 在Spark运行架构中，以下_组件负责任务控制。 6. Task 是运行在_中 Executor 上的工作单元。7. Scala使用两个关键字来声明变量：_和_。8. Dstream的转换操作中，将RDD进行聚合的操作是_。三简答题：本大题有5小题，每小题6分，共30分。1. driver的功能是什么？2. spark工作机制？ 3. RDD机制？ 4.Spark技术栈有哪些组件，每个组件都

7、有什么功能，适合什么应用场景？四程序题：共20分。使用Spark编程对文件E:hello.txt中的单词进行统计，完成程序中的代码。import org.apache.spark.rdd.RDDimport org.apache.spark.SparkConf, SparkContextobject SparkWordCountWithScala def main(args: ArrayString): Unit = val conf = new SparkConf()/设置运行模式为local 1._ /设置任务名 conf.setAppName(WordCount) /创建SparkCore的程序入口 val sc = new SparkContext(conf) /读取文件生成RDD val file: RDDString = sc.textFile(E:hello.txt) /把每一行数据按照“,”分割 2. _ /让每一个单词都出现一次 3._ /单词计数 4._ /按照单词出现的次数降序排序 5._ /将最终的结果进行保存 sortRdd.saveAsTextFile(E:result) sc.stop() 试卷部分：4/4

展开阅读全文