云计算与大数据技术（微课版）-模拟试卷及答案考试题1.docx-淘文阁

资源描述

《云计算与大数据技术（微课版）-模拟试卷及答案考试题1.docx》由会员分享，可在线阅读，更多相关《云计算与大数据技术（微课版）-模拟试卷及答案考试题1.docx（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、单项选择题(共10小题，每小题2分，共计20分)1 .大数据价值密度的高低与数据总量大小成反比，这是大数据的那个特点？()(A) Volume (数据量大)(B) Variety (数据类型多)(C) Velocity (流转速度快)(D) Value (价值密度低)2 .Hadoop2.x比Lx相比，有什么显著变化？()(A)增加 DataNode(B)增加 NameNodeHA(C)增加了资源管理器 YARN (D)支持 Wire-compatibility. Google GFS的Master上保存了 GFS的三种元数据，以下那种元数据不能通过日志文件恢复()。(A)命名空间(B)

2、 Chunk与文件名的映射表(C) Chunk副本的位置信息(D)以上都不能4 .关于YARN组件说法错误的是()(A ) YARN 采用 master/slave 架构(B)主节点上运行主服务ResourceMananger(C)从节点上运行从服务NodeManager(D) YARN中引入了一个逻辑概念一一槽Slot,它将各类资源抽象化5 .关于Hadoop MapReduce的执行过程，以下哪个顺序正确？()(A)输入一Reduce-Shuffle-Map输出(B)输入fMapfShufflefReducef 输出(C)输入f Shufflef Mapf Reducef 输出(D)输入f

3、 Mapf Reducef Shufflef 输出6 .只启动HDFS,启动成功后，查看JPS,下面那个进程不在其中？()(A) HMaster (B) DataNode (C) Secondary NameNode (D) NameNode7 .下面选项不属于Amazon提供的云计算服务的是()。(A)弹性计算云服务EC2(B)简单存储服务S3(C)简单队列服务SQS(D) Net服务8 .下列关于Hive的介绍错误的是()。(A) Hive本身不存储和处理数据，依赖HDFS存储数据，依赖MapReduce处理数据Hive是构建在Hadoop之上的一个数据仓库工具(C)数据仓库Hive不需要

4、借助于HDFS等就可以完成数据的存储（D） Hive起源于Facebook内部信息处理平台9 . ZooKeeper在集群模式下运行，那么在部署ZooKeeper集群时，至少有几个节点？（）（A） 4（B） 3（C） 2（D） 110 .以下不属于Gossip协议优点的是（）o（A）分布式容错（B）收敛速度快（C）去中心化（D）最终一致性二、填空题（共5小题，每空1分，共计10分）Amazon S3存储系统的基本结构中，涉及到的两个基本概念分别是和。1. ZooKeeper的集群角色除Leader外还有,其被分为、。2. Hadoop集群中MapReduce的底层数据存储在。3. Had

5、oop集群中的HDFS来源于Google云计算的。4. 云计算提供的三种主要服务类型分别是：、 o三、判断题（共10小题，每小题1分，共计10分，正确打错误打X）1. Hado叩集群必须使用高性能服务器来搭建。（）HDFS比较适合存储大量零碎的小文件。（）2. HBase的一个表可以存放到多个Region服务器上。（）云计算是通过网络按需提供可动态伸缩的廉价计算服务。（）3. Hive的元数据和真实数据都存储在HDFS上。（）云计算按照部署模式划分，可以分为公有云、私有云和混合云。（）4. ZooKeeper中数据节点ZNode的组织方式类似于Unix的文件系统，但ZNode的读写不具有原子

6、性。（）SaaS虽然能够提高部署的速度，但是其实现和升级的成本也大大增加了。（）5. HBase使用ZooKe叩er实现集群管理功能。（）Bigtable对存储在其中的数据不做任何解析，一律看做字符串。（）四、简答题（共5小题，每题6分，共计30分）. YARN核心组件及其功能。1 .容灾备份定义是什么？按照容灾系统对灾难的抵抗程度怎么划分？2 .云数据中心的特征有哪些？3 .解释下面Hive语句的功能：CREATE EXTERNAL TABLE IF NOT EXISTS goods （echangeSTRING,symbolSTRING,ymdSTRING,price_openFLOAT,

7、price_highFLOAT,PARTITIONED BY (year INT, month INT, day INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY LINES TERMINATED BY nSTORED AS TEXTFILE;4 .虚拟机隔离机制主要包括哪些?五、论述题（共3小题，每题10分，共计30分）1 .请论述手工部署全分布模式Hadoop集群的完整过程。（10分）2 .请论述云计算与大数据、物联网、人工智能、移动互联网之间的关联性。（10分）3请论述Hive与关系型数据库的区别？（10分）参考答案与评分标准一、单项选择题（每

8、题2分，共10题，共20分）题号12345678910答案DCCDBADCBB二、填空题（每空1分，共10分）桶（Bucket）、对象（Object）（中英文均可）1. Learner Follower Observer（顺序可互换）HDFS2. GFSSaaS （软件即服务）、PaaS （平台即服务）、laaS （基础设施即服务）（中英文均可）三、判断题（每题1分，共10题，共10分，正确打错误打X）题号12345678910答案XXVVXVXXVV四、简答题（每题6分，共5题，共30分）（注意：答案不唯一，只要思路正确，解释有理有据即可）1 .【答案】YARN核心组件包括三个，如下：Re

9、sourceManager：处理客户端请求，启动/监控 ApplicationMaster,监控 NodeManager 和资源分配与调度。（【答案12分）ApplicationMaster：为应用程序申请资源，并分配给内部任务，任务调度、监控与容错。（【答案12分）NodeManager：单个节点上的资源管理，处理来自ResourceManager的命令，处理来自 ApplicationMaster的命令。（【答案】，2分）.【答案】容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。（2分）按照容灾系统对灾难的抵抗程度可以划分为数据级容

10、灾（2分）和应用级容灾。（2分）2 .【答案】（1）高设备利用率（L5分）（2）绿色节能（L5分）（3）高可用性（1.5分）（4）自动化管理（1.5分）.【答案】创建一个外部表goods，包含5个字段（echange类型为STRING, symbol类型为STRING, ymd 类型为 STRING, price_open 类型为 FLOAT, price_high 类型为FLOAT）（【答案工 2 分）表的分区依据year, month, day,类型均为INT （【答案】，2分）字段的分隔符好为制表符，行结束符号为换行符（【答案】，2分）.【答案】（1）网络隔离（1分）（2）构建虚拟机安全

11、文件防护网（1分）（3）基于访问控制的逻辑隔离机制（1分）（4）通过硬件虚拟，让每个虚拟机无法突破资源限制（1分）（5）硬件提供的内存保护机制（1分）6）进程地址空间的保护机制，IP地址隔离（1分）说明：答案要点如上所述，用类似的话语代替也可以。单项分值如上。五、论述题（共3题，每题10分，共30分）（注意：答案不唯一，只要思路正确，案例合理，解释有理有据即可）1 .【答案】（1）规划部署。（【答案11分）（2）准备机器。（【答案】，1分）（3）准备软件环境：配置静态IP；修改主机名；编辑域名映射。（【答案11分）（4）安装和配置Java。（【答案11分）（5）安装和配置SSH免密登录。（【答

12、案11分）（6）获取和安装Hadoop。（【答案】，1分）（7）配置全分布模式Hadoop集群。（【答案11分）（8）关闭防火墙。（【答案】，1分）（9）格式化文件系统。（【答案】，1分）（10）启动和验证Hadoop。（【答案11分）.【答案】大数据、云计算、物联网、人工智能、移动互联网是相辅相成的。（【答案12分）大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式和数据存储和管理系统（包括分布式文件系统和分布式数据库系统）提供了海量数据的存储和管理能力，分布式并行处理框架MapReduce提供了海量数据分析能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。（

13、【答案12分）反之，大数据为云计算提供了 “用武之地”，没有大数据这个“练兵场”，云计算技术再先进，也不能发挥它的应用价值。（【答案12分）物联网的传感器源源不断产生的大量数据，构成了大数据的重要来源。（【答案】，2分）人工智能二云计算+大数据（很大部分来自物联网），物联网提供大量的数据，之后利用云计算平台对大数据进行处理与分析，人工智能虽然核心在于算法，但是它是根据大量的历史数据和实时数据来对未来进行预测的。包括物联网，传统互联网，移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据，呈现出“云大物智移”大融合的趋势。（【答案 2分）2 .【答案】（1）数据插入：关系型数据库同时

14、支持导入单条数据和批量数据，而Hive中仅支持批量导入数据，因为Hive主要用来支持大规模数据集上的数据仓库应用程序的运行，常见操作是全表扫描，所以单条插入功能对Hive并不实用；（【答案】，2分）（2）数据更新：更新是关系型数据库中很重耍的特性，Hive不支持数据更新。Hive是一个数据仓库工具，而数据仓库中存放的是静态数据。（【答案12分）（3）索引：索引也是关系型数据库中很重要的特性，Hive只提供有限的索引功能。（【答案12分）（4）执行延迟：因为Hive构建于HDFS与MapReduce上，所以对比传统数据库来说 Hive的延迟比较高，传统的SQL语句的延迟少于一秒，而HiveQL语句的延迟会达到分钟级。（【答案】，2分）（5）扩展性：传统关系数据库很难横向扩展，纵向扩展的空间也很有限。相反Hive 的开发环境是基于集群的，所以具有较好的可扩展性。（【答案】，2分）（注意：答案不唯一，思路正确，解释有理有据即可）

展开阅读全文

云计算与大数据技术（微课版）-模拟试卷及答案 考试题1.docx

云计算与大数据技术（微课版）-模拟试卷及答案考试题1.docx