《云计算与大数据技术(微课版)-模拟试卷及答案 考试题1.docx》由会员分享,可在线阅读,更多相关《云计算与大数据技术(微课版)-模拟试卷及答案 考试题1.docx(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、一、单项选择题(共10小题,每小题2分,共计20分)1 .大数据价值密度的高低与数据总量大小成反比,这是大数据的那个特点?()(A) Volume (数据量大)(B) Variety (数据类型多)(C) Velocity (流转速度快)(D) Value (价值密度低)2 .Hadoop2.x比Lx相比,有什么显著变化?()(A)增加 DataNode(B)增加 NameNodeHA(C)增加了资源管理器 YARN (D)支持 Wire-compatibility. Google GFS的Master上保存了 GFS的三种元数据,以下那种元数据不能通过日志文件 恢复()。(A)命名空间(B)
2、 Chunk与文件名的映射表(C) Chunk副本的位置信息(D)以上都不能4 .关于YARN组件说法错误的是()(A ) YARN 采用 master/slave 架构(B)主节点上运行主服务ResourceMananger(C)从节点上运行从服务NodeManager(D) YARN中引入了一个逻辑概念一一槽Slot,它将各类资源抽象化5 .关于Hadoop MapReduce的执行过程,以下哪个顺序正确?()(A)输入一Reduce-Shuffle-Map输出(B)输入fMapfShufflefReducef 输出(C)输入f Shufflef Mapf Reducef 输出(D)输入f
3、 Mapf Reducef Shufflef 输出6 .只启动HDFS,启动成功后,查看JPS,下面那个进程不在其中?()(A) HMaster (B) DataNode (C) Secondary NameNode (D) NameNode7 .下面选项不属于Amazon提供的云计算服务的是()。(A)弹性计算云服务EC2(B)简单存储服务S3(C)简单队列服务SQS(D) Net服务8 .下列关于Hive的介绍错误的是()。(A) Hive本身不存储和处理数据,依赖HDFS存储数据,依赖MapReduce处理数据Hive是构建在Hadoop之上的一个数据仓库工具(C)数据仓库Hive不需要
4、借助于HDFS等就可以完成数据的存储(D) Hive起源于Facebook内部信息处理平台9 . ZooKeeper在集群模式下运行,那么在部署ZooKeeper集群时,至少有几个节点?()(A) 4(B) 3(C) 2(D) 110 .以下不属于Gossip协议优点的是( )o(A)分布式容错(B)收敛速度快(C)去中心化 (D)最终一致性二、填空题(共5小题,每空1分,共计10分)Amazon S3存储系统的基本结构中,涉及到的两个基本概念分别是 和。1. ZooKeeper的集群角色除Leader外还有,其被分为、。2. Hadoop集群中MapReduce的底层数据存储在。3. Had
5、oop集群中的HDFS来源于Google云计算的。4. 云计算提供的三种主要服务类型分别是:、 o三、判断题(共10小题,每小题1分,共计10分,正确打错误打X)1. Hado叩集群必须使用高性能服务器来搭建。()HDFS比较适合存储大量零碎的小文件。()2. HBase的一个表可以存放到多个Region服务器上。()云计算是通过网络按需提供可动态伸缩的廉价计算服务。()3. Hive的元数据和真实数据都存储在HDFS上。()云计算按照部署模式划分,可以分为公有云、私有云和混合云。()4. ZooKeeper中数据节点ZNode的组织方式类似于Unix的文件系统,但ZNode的读写不具 有原子
6、性。()SaaS虽然能够提高部署的速度,但是其实现和升级的成本也大大增加了。()5. HBase使用ZooKe叩er实现集群管理功能。()Bigtable对存储在其中的数据不做任何解析,一律看做字符串。()四、简答题(共5小题,每题6分,共计30分). YARN核心组件及其功能。1 .容灾备份定义是什么?按照容灾系统对灾难的抵抗程度怎么划分?2 .云数据中心的特征有哪些?3 .解释下面Hive语句的功能:CREATE EXTERNAL TABLE IF NOT EXISTS goods (echangeSTRING,symbolSTRING,ymdSTRING,price_openFLOAT,
7、price_highFLOAT,PARTITIONED BY (year INT, month INT, day INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY LINES TERMINATED BY nSTORED AS TEXTFILE;4 .虚拟机隔离机制主要包括哪些?五、论述题(共3小题,每题10分,共计30分)1 .请论述手工部署全分布模式Hadoop集群的完整过程。(10分)2 .请论述云计算与大数据、物联网、人工智能、移动互联网之间的关联性。(10分)3请论述Hive与关系型数据库的区别? (10分)参考答案与评分标准一、单项选择题(每
8、题2分,共10题,共20分)题号12345678910答案DCCDBADCBB二、填空题(每空1分,共10分)桶(Bucket)、 对象(Object)(中英文均可)1. Learner Follower Observer(顺序可互换)HDFS2. GFSSaaS (软件即服务)、PaaS (平台即服务)、laaS (基础设施即服务)(中英文均可)三、判断题(每题1分,共10题,共10分,正确打错误打X)题号12345678910答案XXVVXVXXVV四、简答题(每题6分,共5题,共30分)(注意:答案不唯一,只要思路正确,解释有理有据即可)1 .【答案】YARN核心组件包括三个,如下:Re
9、sourceManager:处理客户端请求,启动/监控 ApplicationMaster,监控 NodeManager 和资源分配与调度。(【答案12分)ApplicationMaster:为应用程序申请资源,并分配给内部任务,任务调度、监控与容错。(【答案12分)NodeManager:单个节点上的资源管理,处理来自ResourceManager的命令,处理来自 ApplicationMaster的命令。(【答案】,2分).【答案】容灾备份是通过在异地建立和维护一个备份存储系统,利用地理上的分离来保证系统和 数据对灾难性事件的抵御能力。(2分)按照容灾系统对灾难的抵抗程度可以划分为数据级容
10、灾(2分)和应用级容灾。(2分)2 .【答案】(1)高设备利用率(L5分)(2)绿色节能(L5分)(3)高可用性(1.5分)(4)自动化管理(1.5分).【答案】创建一个外部表goods,包含5个字段(echange类型为STRING, symbol类型为STRING, ymd 类型为 STRING, price_open 类型为 FLOAT, price_high 类型为FLOAT)(【答案工 2 分)表的分区依据year, month, day,类型均为INT (【答案】,2分)字段的分隔符好为制表符,行结束符号为换行符(【答案】,2分).【答案】(1)网络隔离(1分)(2)构建虚拟机安全
11、文件防护网(1分)(3)基于访问控制的逻辑隔离机制(1分)(4)通过硬件虚拟,让每个虚拟机无法突破资源限制(1分)(5)硬件提供的内存保护机制(1分)6)进程地址空间的保护机制,IP地址隔离(1分)说明:答案要点如上所述,用类似的话语代替也可以。单项分值如上。五、论述题(共3题,每题10分,共30分)(注意:答案不唯一,只要思路正确,案例合理,解释有理有据即可)1 .【答案】(1)规划部署。(【答案11分)(2)准备机器。(【答案】,1分)(3)准备软件环境:配置静态IP;修改主机名;编辑域名映射。(【答案11分)(4)安装和配置Java。(【答案11分)(5)安装和配置SSH免密登录。(【答
12、案11分)(6)获取和安装Hadoop。(【答案】,1分)(7)配置全分布模式Hadoop集群。(【答案11分)(8)关闭防火墙。(【答案】,1分)(9)格式化文件系统。(【答案】,1分)(10)启动和验证Hadoop。(【答案11分).【答案】大数据、云计算、物联网、人工智能、移动互联网是相辅相成的。(【答案12分)大数据根植于云计算,大数据分析的很多技术都来自于云计算,云计算的分布式和数据 存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理 能力,分布式并行处理框架MapReduce提供了海量数据分析能力,没有这些云计算技术作 为支撑,大数据分析就无从谈起。(
13、【答案12分)反之,大数据为云计算提供了 “用武之地”,没有大数据这个“练兵场”,云计算技术 再先进,也不能发挥它的应用价值。(【答案12分)物联网的传感器源源不断产生的大量数据,构成了大数据的重要来源。(【答案】,2分)人工智能二云计算+大数据(很大部分来自物联网),物联网提供大量的数据,之后利用 云计算平台对大数据进行处理与分析,人工智能虽然核心在于算法,但是它是根据大量的历 史数据和实时数据来对未来进行预测的。包括物联网,传统互联网,移动互联网在源源不断 的向互联网大数据层汇聚数据和接受数据,呈现出“云大物智移”大融合的趋势。(【答案 2分)2 .【答案】(1)数据插入:关系型数据库同时
14、支持导入单条数据和批量数据,而Hive中仅支持批 量导入数据,因为Hive主要用来支持大规模数据集上的数据仓库应用程序的运行,常见操 作是全表扫描,所以单条插入功能对Hive并不实用;(【答案】,2分)(2)数据更新:更新是关系型数据库中很重耍的特性,Hive不支持数据更新。Hive是 一个数据仓库工具,而数据仓库中存放的是静态数据。(【答案12分)(3)索引:索引也是关系型数据库中很重要的特性,Hive只提供有限的索引功能。(【答 案12分)(4)执行延迟:因为Hive构建于HDFS与MapReduce上,所以对比传统数据库来说 Hive的延迟比较高,传统的SQL语句的延迟少于一秒,而HiveQL语句的延迟会达到分钟 级。(【答案】,2分)(5)扩展性:传统关系数据库很难横向扩展,纵向扩展的空间也很有限。相反Hive 的开发环境是基于集群的,所以具有较好的可扩展性。(【答案】,2分)(注意:答案不唯一,思路正确,解释有理有据即可)