《《大数据平台搭建与配置管理》期末试题试卷及答案.docx》由会员分享,可在线阅读,更多相关《《大数据平台搭建与配置管理》期末试题试卷及答案.docx(11页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、大数据平台搭建与配置管理大数据平台搭建与配置管理期末试题期末试题(闭卷A)题 号一二三四五六七八九十成绩满 分30202030100得 分【本套试卷共有4大题,计66小题】一、选择题(20题,每题1.5分,共30分)1、以下哪一位是Hadoop的作者()。A. Matrin FowlerB. Doug cuttingC. Kent BeckD. Grace Hopper2、以下哪个命令可以终止一个用户的所有进程()。A. killB. killallC. skillD.skillall3、用“rm -i”,系统会提示什么来让你确认()。A. 是否真的删除B. 是否有写的权限C. 命令行的每个选
2、项D.文件的位置4、HDFS默认Block大小是()。A. 32MBB. 64MBC. 128MBD. 256MB5、下列哪项通常是集群的最主要瓶颈()。A. CPUB. 网络C. 磁盘IOD. 内存6、以下与HDFS类似的框架是()。A. NTFSB. FAT32C. GFSD.EXT37、有关MapReduce的输入输出,说法错误的是()。A. 链接多个MapReduce作业时,序列文件是首选格式B. FileInputFormat中实现的getSplits()可以把输入数据划分为分片,分片数目和大小任意定义C. 想完全禁止输出,可以使用NullOutputFormatD. 每个reduc
3、e需将它的输出写入自己的文件中,输出无需分片8、对HDFS内的文件进行操作,以下说法正确的是()。A. HDFS提供了Shell的操作接口B. 不允许对文件进行列表查看C. 文件操作命令与Linux不相似D. 采用Windows系统对文件进行操作9、列关于HDFS为存储MapReduce并行切分和处理的数据做的设计,错误的是?()A. FSDataInputStream扩展了DataInputStream以支持随机读B. 为实现细粒度并行,输入分片(Input Split)应该越小越好C. 一台机器可能被指派从输入文件的任意位置开始处理一个分片D. 输入分片是一种记录的逻辑划分,而HDFS数据
4、块是对输入数据的物理分割10、ZooKeeper允许分布式进程通过共享的()相互协调。A. 锁B. 表C. 分层命名空间D. 内存11、名称空间由()组成。A. 磁盘寄存器B. 表C. 内存寄存器D. 数据寄存器12、下面哪些概念是HBase框架中使用的?()A. HadoopB. GridFSC. ZookeeperD. EXT313、Hive中创建()的目的就是在查询一个表中某列值时提升速度。A. 行B. 列C. 索引D. 表14、Hive可处理大量数据,它最重视的性能是可测量性,延展性,什么和对于输入格式的宽松匹配性。()A. 较低恢复性B. 容错性C. 快速查询D. 低延迟15、对数据
5、仓库的操作,一般不包括哪些方面?()A. 数据抽取B. 数据爬取C. 数据转换D. 数据装载16、下面对HBase的描述哪些是正确的?()A. 不是开源的B. 是面向列的C. 是分布式的D. 是一种NoSQL数据库17、HBase依赖()提供强大的计算能力。A. ZookeeperB. ChubbyC. RPCD. MapReduce18、面哪些概念是HBase框架中使用的?()A. HDFSB. GridFSC. ZookeeperD. EXT319、以下不是Storm特点的是?()A. 整合性B. 可靠的消息处理C. 可扩展性D. 高吞吐量20、Storm支持什么?()A. 容错和水平扩展
6、B. 复杂的APIC. 高吞吐量D. 跨平台二、填空题(20题,每题1分,共10分)21、网络管理两个重要任务分别是: 和 。22、Linux内核引导时,从文件 中读取要加载的文件系统。23、 指令可以显示目录的大小。24、ResourceManager默认的WebUI访问端口号为: 。25、 负责HDFS数据存储。26、格式化HDFS系统的命令为 。27、在MapReduce中,一个存储在分布式文件系统中的大规模数据集会被切分成许多独立的 28、Reduce函数的任务就是将输入的一系列具有 的键值对以某种方式组合起来。29、MapReduce框架会为每个 输入一个数据子集。30、ZooKee
7、per是集群的 ,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。31、Zookeeper主要负责 调度。32、ZK提供了一定的 可以用来获取一个顺序增长的,可以在集群环境下使用的ID。33、利用SQL语句进行数据的 、 、 。34、Hive查询有一定的延时,常被用来进行 和 。35、大Hive不支持 响应速度。36、HBase性能优化包含 、 、 、 。37、HFile数据格式中的Magic字段用于: 。38、rowkey是一个二进制码流,最大长度是 ,内部存储为字节数组。39、Storm将 和 组成的网络抽象成Topology。40、FieldsGrouping:按照 分组
8、,保证相同字段的 分配到同一个Task中。三、判断题,正确填“T”,错误填“F”(20题,每题1分,共20分)41、如果命令在前台运行,那么用户在此进程结束钱不能继续使用当前的shell()。42、在用户请求访问的资源共享中包含“guest only = yes”参数,那么用户就会以“guest account=”参数指定的身份连接,而不再使用用户的其他身份()。43、一个文件名字为cc.z,可以用tar命令来解压缩()。44、Ganglia不仅可以进行监控,也可以进行告警()。45、Hadoop支持数据的随机写()。46、每个Map槽就是一个线程()。47、为了让Reduce可以并行处理Ma
9、p的结果,需要对Map的输出进行一定的分区、排序、合并、归并。()48、Map任务得到的中间结果交给Reduce处理,这个过程称之为Shuffle过程。()49、不同Reduce任务之间不会发生任何信息交换。()50、delete或setData不需要明确更新的Znode的版本号。()51、watch事件是可以重复使用的触发器。()52、分布式应用可以在给定时间(同时)在网络中的多个系统上运行。()53、Hive有主键或自增键。()54、对于SQL而言,DML就是增删改查询的SQL语句。()55、创建外部表时,仅仅只是记录数据所在的位置。()56、HBase是Apache的Hadoop项目的子
10、项目,利用Hadoop HDFS作为其文件存储系统,适合于非结构化数据存储。()57、对于HBase系统的使用场景,需要进行多表联合查询。()58、使用Shell命令create在HBase系统中添加新表操作。()59、Bolts可以将处理后的Tuple作为新的Streams发送给其他Bolts。()60、Stream每一个源头都被抽象为Bolts。()四、简答题(6题,每题5分,共30分)61、试论述分布式文件系统设计的需求。答:62、分布式文件系统通过哪两个节点实现较高水平扩展?答: 63、请阐述HBase和BigTable的底层技术的对应关系。答: 64、HBase中的行键、列键以及时间
11、戳的概念是什么?答: 65、HBase与传统数据库的关系?答: 66、HStore的工作原理是什么?答: 大数据平台搭建与配置管理期末标答期末标答A(闭卷)题 号一二三四五六七八九十成绩满 分30202030100得 分一、选择题(20题,每题1.5分,共30分)1-5:BCAAC6-10:CBABC11-15:DCCBB16-20:(BCD)D(AC)DA二、填空题(20题,每题1分,共20分)21、监控 控制22、/etc/fstad23、du24、5007025、datanode26、hdfs namenode-format 27、小数据块28、相同键29、Map任务30、管理者31、分
12、布式任务32、接口33、查询 、 汇总 、 分析34、静态数据分析 挖掘35、实时查询36、读优化 、 写优化 、 配置优化 、 JVM优化37、存储随机数,防止数据损坏38、64KB39、Spouts Bolts40、字段 Tuple三、判断题(20题,每题1分,共20分)41-45:TTFFF46-50:FTTTF51-55:FTFTT56-60:TFTTF四、简答题(6题,每题5分,共60分)61、答:62、答:分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫“主节点”或者也被成为“名称节点”,另一类叫“从节点”或者也被成为“数据节点”。63、答:64、答:略。65、答:66、答:每个Store对应了表中的一个列族的存储。每个Store包括一个MenStore缓存和若干个StoreFile文件。MenStore是排序的内存缓冲区,当用户写入数据时,系统首先把数据放入MenStore缓存,当MenStore缓存满时,就会刷新到磁盘中一个StoreFile文件中,当单个StoreFile文件大小超过一定的阈值时,就会触发文件分裂操作。第 11 页 共 11 页