云计算与大数据技术-模拟试卷及答案（2套）.docx-淘文阁

资源描述

《云计算与大数据技术-模拟试卷及答案（2套）.docx》由会员分享，可在线阅读，更多相关《云计算与大数据技术-模拟试卷及答案（2套）.docx（12页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、一、单项选择题(共10小题，每小题2分，共计20分)1 .大数据价值密度的高低与数据总量大小成反比，这是大数据的那个特点？()(A) Volume (数据量大)(B) Variety (数据类型多)(C) Velocity (流转速度快)(D) Value (价值密度低)2 .Hadoop2.x比Lx相比，有什么显著变化？()(A)增加 DataNode(B)增加 NameNodeHA(C)增加了资源管理器 YARN(D)支持 Wire-compatibility3 . Google GFS的Master上保存了 GFS的三种元数据，以下那种元数据不能通过日志文件恢复( )o(A)命名空间(B

2、) Chunk与文件名的映射表Chunk副本的位置信息(D)以上都不能4.关于YARN组件说法错误的是()(A) YARN 采用 master/slave 架构(B)主节点上运行主服务ResourceMananger(C)从节点上运行从服务NodeManager(C) YARN中引入了一个逻辑概念一一槽Slot,它将各类资源抽象化5 .关于Hadoop MapReduce的执行过程，以下哪个顺序正确？()(A)输入f Reducef Shuffle-M叩f 输出(B)输入fMapfShufflefReducef输出(C)输入fShufflefMapf Reducef 输出(D)输入fMapfR

3、educef Shufflef输出6 .只启动HDFS,启动成功后，查看JPS,下面那个进程不在其中？()(A) HMaster (B) DataNode (C) Secondary NameNode (D) NameNode7 .下面选项不属于Amazon提供的云计算服务的是()。(A)弹性计算云服务EC2(B)简单存储服务S3(C)简单队列服务SQS(D) Net服务8 .下列关于Hive的介绍错误的是()。(A) Hive本身不存储和处理数据，依赖HDFS存储数据，依赖M叩Reduce处理数据Hive是构建在Hadoop之上的一个数据仓库工具(C)数据仓库Hive不需要借助于HDFS等就

4、可以完成数据的存储参老爸拿幺评分好:建一、单项选择题（每题2分，共10题，共20分）题号12345678910答案BCDABCADBB二、填空题（每空1分，共10分）LSaaS （软件即服务）、PaaS （平台即服务）、laaS （基础设施即服务）（中英文均可）2. Master （主月艮务器）、 Chunk Server （数据块月艮务器）（中英文均可）HDFS3. SimpleDB、 DynamoDB桶（Bucket）、对象（Object）（中英文均可）三、判断题（每题1分，共10题，共10分，正确打错误打X）题号12345678910答案JJJXXJXXVV五、简答题（每题6分，共5

5、题，共30分）（注意：答案不唯一，只要思路正确，解释有理有据即可）L【答案】（1）超大规模、极其廉价（L5分）（2）高可靠性、高可伸缩性（1.5分）（3）按需服务、通用性（1.5分）（4）虚拟化、隐私安全（1.5分）说明：答案要点如上所述，用类似的话语代替也可以。单项分值如上。2 .【答案】（1）网络隔离（1分）（2）构建虚拟机安全文件防护网（1分）（3）基于访问控制的逻辑隔离机制（1分）（4）通过硬件虚拟，让每个虚拟机无法突破资源限制（1分）（5）硬件提供的内存保护机制（1分）（6）进程地址空间的保护机制，IP地址隔离（1分）说明：答案要点如上所述，用类似的话语代替也可以。单项分值如上。3

6、.【答案】在hdfs中主要是通过两个数据结构Fslmage和EditsLog来实现metadata的更新。在某次启动hdfs时，会从FSImage文件中读取当前HDFS文件的metadata,之后对HDFS的操作步骤都会记录到edit log文件中。（1分）Fslmage ：是内存元数据在本地磁盘的映射，用于维护管理文件系统命名空间树，即元数据（metadata）（3 分）Edits ：保存了所有对hdfs中文件的操作日志信息（2分）4 .【答案】创建一个外部表goods，包含5个字段（echange类型为STRING, symbol类型为STRING, ymd 类型为 STRING,

7、 price_open 类型为 FLOAT, price_high 类型为 FLOAT）（【答案工 2 分）表的分区依据year, month, day,类型均为INT （【答案】,2分）字段的分隔符好为制表符，行结束符号为换行符（【答案12分）.【答案】容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。（2分）按照容灾系统对灾难的抵抗程度可以划分为数据级容灾（2分）和应用级容灾。（2分）五、论述题（共3题，每题10分，共30分）（注意：答案不唯一，只要思路正确，案例合理，解释有理有据即可）1 .【答案】结构化数据存储在数据库里，可以用二

8、维表结构来逻辑表达实现的数据。（3分）相对于结构化数据而言，不方便用数据库二维逻辑表来表现的数据即称为非结构化数据, 包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等（3分）。非结构化WEB数据库主要是针对非结构化数据而产生的，与以往流行的关系数据库相比，其最大区别在于它突破了关系数据库结构定义不易改变和数据定长的限制，支持重复字段、子字段以及变长字段并实现了对变长数据和重复字段进行处理和数据项的变长存储管理，在处理连续信息（包括全文信息）和非结构化信息（包括各种多媒体信息）中有着传统关系型数据库所无法比拟的优势。大数据系统研究的数据90%以上都

9、属于非结构化或者半结构化数据。（4分）.【答案】大数据、云计算、物联网、人工智能、移动互联网是相辅相成的。（【答案12分）大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式和数据存储和管理系统（包括分布式文件系统和分布式数据库系统）提供了海量数据的存储和管理能力，分布式并行处理框架MapReduce提供了海量数据分析能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。（【答案】，2分）反之，大数据为云计算提供了 “用武之地”，没有大数据这个“练兵场”，云计算技术再先进，也不能发挥它的应用价值。（【答案12分）物联网的传感器源源不断产生的大量数据，构成了大数据的

10、重要来源。（【答案12分）人工智能二云计算+大数据（很大部分来自物联网），物联网提供大量的数据，之后利用云计算平台对大数据进行处理与分析，人工智能虽然核心在于算法，但是它是根据大量的历史数据和实时数据来对未来进行预测的。包括物联网，传统互联网，移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据，呈现出“云大物智移”大融合的趋势。（【答案】， 2分）2 .【答案】首先最底层毫无疑问是遍布全球的的数据中心，在数据中心里统一维护管理了大量的服务器。（【答案】，2分）数据中心的物理硬件上运行了 Linux操作系统，Linux操作系统上运行着阿里云自主研发的飞天分布式操作系统，包括分布式

11、文件系统、调度系统、安全策略、集群部署和监控等底层功能。（【答案】，4分）在飞天操作系统上运行了数目繁多的云产品，包括ECS/RDS/0SS等，从这一层开始才被广大用户所熟知。最上层是阿里云的行业解决方案和云市场里第三方合作方的种种云服务方案。（【答案14分）（注意：答案不唯一，思路正确，解释有理有据即可）（D） Hive起源于Facebook内部信息处理平台9 . ZooKeeper在集群模式下运行，那么在部署ZooKeeper集群时，至少有几个节点？（）（A） 4（B） 3（C） 2（D） 110 .以下不属于Gossip协议优点的是（）o（A）分布式容错（B）收敛速度快（C）去中

12、心化（D）最终一致性二、填空题（共5小题，每空1分，共计10分）Amazon S3存储系统的基本结构中，涉及到的两个基本概念分别是和。1. ZooKeeper的集群角色除Leader外还有,其被分为、。2. Hadoop集群中MapReduce的底层数据存储在。3. Hadoop集群中的HDFS来源于Google云计算的。4. 云计算提供的三种主要服务类型分别是：、 o三、判断题（共10小题，每小题1分，共计10分，正确打错误打X）1 . Hadoop集群必须使用高性能服务器来搭建。（）.HDFS比较适合存储大量零碎的小文件。（）2 . HBase的一个表可以存放到多个Region服务器上。

13、（）.云计算是通过网络按需提供可动态伸缩的廉价计算服务。（）3 . Hive的元数据和真实数据都存储在HDFS上。（）.云计算按照部署模式划分，可以分为公有云、私有云和混合云。（）4 . ZooKeeper中数据节点ZNode的组织方式类似于Unix的文件系统，但ZNode的读写不具有原子性。（）.SaaS虽然能够提高部署的速度，但是其实现和升级的成本也大大增加了。（）9. HBase使用ZooKeeper实现集群管理功能。（）Bigtable对存储在其中的数据不做任何解析，一律看做字符串。（）四、简答题（共5小题，每题6分，共计30分）. YARN核心组件及其功能。1 .容灾备份定义是什么

14、？按照容灾系统对灾难的抵抗程度怎么划分？2 .云数据中心的特征有哪些？3 .解释下面Hive语句的功能：CREATE EXTERNAL TABLE IF NOT EXISTS goods （echangeSTRING,symbolSTRING,ymdSTRING,price_openFLOAT,price_highFLOAT,PARTITIONED BY (year INT, month INT, day INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY X LINES TERMINATED BY nSTORED AS TEXTFILE;4 .虚拟机隔

15、离机制主要包括哪些?五、论述题（共3小题，每题10分，共计30分）1 .请论述手工部署全分布模式Hadoop集群的完整过程。（10分）2 .请论述云计算与大数据、物联网、人工智能、移动互联网之间的关联性。（10分）3 .请论述Hive与关系型数据库的区别？（10分）参老爸拿幺评分好:建一、单项选择题（每题2分，共10题，共20分）题号12345678910答案DCCDBADCBB二、填空题（每空1分，共10分）桶（Bucket）、对象（Object）（中英文均可）1. Learner Follower Observer（顺序可互换）HDFS2. GFSSaaS （软件即服务）、PaaS （

16、平台即月艮务）、laaS （基础设施即服务）（中英文均可）三、判断题（每题1分，共10题，共10分，正确打错误打X）题号12345678910答案XXVXXXVV四、简答题（每题6分，共5题，共30分）（注意：答案不唯一，只要思路正确，解释有理有据即可）L【答案】YARN核心组件包括三个，如下：ResourceManager：处理客户端请求，启动/监控 ApplicationMaster,监控 NodeManager 和资源分配与调度。（【答案】，2分）ApplicationMaster：为应用程序申请资源，并分配给内部任务，任务调度、监控与容错。（【答案12分）NodeManager：单个节

17、点上的资源管理，处理来自ResourceManager的命令，处理来自ApplicationMaster的命令。（【答案】，2分）.【答案】容灾备份是通过在异地建立和维护一个备份存储系统，利用地理上的分离来保证系统和数据对灾难性事件的抵御能力。（2分）按照容灾系统对灾难的抵抗程度可以划分为数据级容灾（2分）和应用级容灾。（2分）2 .【答案】（1）高设备利用率（1.5分）（2）绿色节能（1.5分）（3）高可用性（L5分）（4）自动化管理（1.5分）3 .【答案】创建一个外部表goods ,包含5个字段（echange类型为STRING, symbol类型为STRING, ymd 类型为 S

18、TRING, price.open 类型为 FLOAT, price.high 类型为 FLOAT）（【答案 2 分）表的分区依据year, month, day,类型均为INT （【答案12分）字段的分隔符好为制表符，行结束符号为换行符（【答案】，2分）.【答案】（1）网络隔离（1分）（2）构建虚拟机安全文件防护网（1分）（3）基于访问控制的逻辑隔离机制（1分）（4）通过硬件虚拟，让每个虚拟机无法突破资源限制（1分）（5）硬件提供的内存保护机制（1分）6）进程地址空间的保护机制，IP地址隔离（1分）说明：答案要点如上所述，用类似的话语代替也可以。单项分值如上。五、论述题（共3题，每题10分，

19、共30分）（注意：答案不唯一，只要思路正确，案例合理，解释有理有据即可）1 .【答案】（1）规划部署。（【答案】，1分）（2）准备机器。（【答案】，1分）（3）准备软件环境：配置静态IP;修改主机名；编辑域名映射。（【答案】，1分）（4）安装和配置Java。（【答案11分）（5）安装和配置SSH免密登录。（【答案】，1分）（6）获取和安装Hadoop。（【答案】，1分）（7）配置全分布模式Hadoop集群。（【答案】，1分）（8）关闭防火墙。（【答案】，1分）（9）格式化文件系统。（【答案11分）（10）启动和验证Hadoop。（【答案11分）.【答案】大数据、云计算、物联网、人工智能、移动互

20、联网是相辅相成的。（【答案12分）大数据根植于云计算，大数据分析的很多技术都来自于云计算，云计算的分布式和数据存储和管理系统（包括分布式文件系统和分布式数据库系统）提供了海量数据的存储和管理能力，分布式并行处理框架MapReduce提供了海量数据分析能力，没有这些云计算技术作为支撑，大数据分析就无从谈起。（【答案12分）反之，大数据为云计算提供了 “用武之地”，没有大数据这个“练兵场”，云计算技术再先进，也不能发挥它的应用价值。（【答案12分）物联网的传感器源源不断产生的大量数据，构成了大数据的重要来源。（【答案12分）人工智能二云计算+大数据（很大部分来自物联网），物联网提供大量的数据

21、，之后利用云计算平台对大数据进行处理与分析，人工智能虽然核心在于算法，但是它是根据大量的历史数据和实时数据来对未来进行预测的。包括物联网，传统互联网，移动互联网在源源不断的向互联网大数据层汇聚数据和接受数据，呈现出“云大物智移”大融合的趋势。（【答案】， 2分）2 .【答案】（1）数据插入：关系型数据库同时支持导入单条数据和批量数据，而Hive中仅支持批量导入数据，因为Hive主要用来支持大规模数据集上的数据仓库应用程序的运行，常见操作是全表扫描，所以单条插入功能对Hive并不实用；（【答案12分）（2）数据更新：更新是关系型数据库中很重要的特性，Hive不支持数据更新。Hive是

22、一个数据仓库工具，而数据仓库中存放的是静态数据。（【答案12分）（3）索引：索引也是关系型数据库中很重要的特性，Hive只提供有限的索引功能。（【答案12分）（4）执行延迟：因为Hive构建于HDFS与MapReduce上，所以对比传统数据库来说 Hive的延迟比较高，传统的SQL语句的延迟少于一秒，而HiveQL语句的延迟会达到分钟级。（【答案12分）（5）扩展性：传统关系数据库很难横向扩展，纵向扩展的空间也很有限。相反Hive 的开发环境是基于集群的，所以具有较好的可扩展性。（【答案】，2分）（注意：答案不唯一，思路正确，解释有理有据即可）一、单项选择题(共10小题，每小题2分，共计2

23、0分)1. HDFS的最初作者是()o(A) Martin Fowler (B) Doug cutting (C) Kent Beck (D) Grace Hopper2. Google GFS的Master上保存了 GFS的三种元数据，以下那种元数据不能通过日志文件恢复()。(A)命名空间(B) Chunk与文件名的映射表(C) Chunk副本的位置信息(D)以上都不能3. Hadoop 2.x比1.x相比，有什么显著变化？()(A)增加 DataNode(B)增加 NameNode HA(C)支持 Wire-compatibility(D)增加了资源管理器 YARN4. HDFS文件系统

24、的特点不包括()o(A)擅长并发写(B)存储超大文件(C)擅长并发读(D)廉价硬件5. 关于Hadoop MapReduce的执行过程，以下哪个顺序正确？()(A)输入fReducef ShufflefMapf 输出(B)输入fMapfShufflefReducef输出(C)输入f Shufflef Mapf Reducef 输出(D)输入一MapfReduce-Shuffle-输出6. Zookeeper的设计目标不包括()。(A)独立命名空间(B)健壮性(C)有序性(D)高并发7. ACID原则中的I是指( )oA、独立性B、一致性C、持久性 D、原子性8. 下面选项不属于Amazon提供

25、的云计算服务的是()。(A)弹性计算云服务EC2(B)简单存储服务S3(C)简单队列服务SQS(D) Net服务9. ZooKeeper在集群模式下运行，那么在部署ZooKeeper集群时,至少有几个节点？()(A) 4(B) 3(C) 2(D) 110.以下不属于Gossip协议优点的是()。(A)分布式容错(B)收敛速度快(C)去中心化 (D)最终一致性二、填空题(共5小题，每空1分，共计10分)1 .云计算提供的三种主要服务类型分别是：、 O2 .GFS将整个系统的节点分为三类角色：Client （客户端）、。3 . Hadoop集群中MapReduce的底层数据存储在。4 .AWS中提

26、供的非关系数据库主要包括和 o5 . Amazon S3存储系统的基本结构中，涉及到的两个基本概念分别是和。三、判断题（共10小题，每小题1分，共计10分，正确打错误打X）L Hadoop集群可以使用性能较差的服务器来搭建。（）2 .HDFS比较适合存储大文件。（）3 . HBase的一个表可以存放到多个Region服务器上。（）4 .云计算是通过网络按需提供可动态伸缩的较昂贵的计算服务。（）5 . Hive的元数据和真实数据都存储在HDFS上。（）6 .云计算按照部署模式划分，可以分为公有云、私有云和混合云。（）. ZooKeeper中数据节点ZNode的组织方式类似于Unix的文件系统

27、，但ZNode的读写不具有原子性。（）7 .SaaS虽然能够提高部署的速度，但是其实现和升级的成本也大大增加了。（）9. HBase使用ZooKeeper实现集群管理功能。（）10. Bigtable对存储在其中的数据不做任何解析，一律看做字符串。（）四、简答题（共5小题，每题6分，共计30分）1 .云计算的特点有哪些？2 .虚拟机隔离机制主要包括哪些？3 .解释HDFS的元数据：fsimage和edits文件的作用。4 .解释下面Hive语句的功能：CREATE EXTERNAL TABLE IF NOT EXISTS goods (echangeSTRING,symbolSTRING,y

28、mdprice_openFLOAT,price_highFLOAT,)PARTITIONED BY (year INT, month INT, day INT)STRING,ROW FORMAT DELIMITED FIELDS TERMINATED BY At LINES TERMINATED BY An1STORED AS TEXTFILE;.容灾备份定义是什么？按照容灾系统对灾难的抵抗程度怎么划分？五、论述题（共3小题，每题10分，共计30分）L解释什么是结构化数据？什么是非结构化数据？为什么非结构化数据是大数据技术的研究重点？（10分）.请论述云计算与大数据、物联网、人工智能、移动互联网之间的关联性。（10分）2 .论述阿里云计算架构的主要组成。（10分）

展开阅读全文