2021年大数据试题.docx

上传人:Che****ry 文档编号:5425727 上传时间:2022-01-07 格式:DOCX 页数:8 大小:82.41KB
返回 下载 相关 举报
2021年大数据试题.docx_第1页
第1页 / 共8页
2021年大数据试题.docx_第2页
第2页 / 共8页
点击查看更多>>
资源描述

《2021年大数据试题.docx》由会员分享,可在线阅读,更多相关《2021年大数据试题.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、精品word 可编辑资料 - - - - - - - - - - - - -一.填空题(将正确的答案写入答题纸中;每空1 分,共 20 分)1 .HDFS 有 _ NameNode _, _ DataNode _ 和_ SecondaryNameNode _ 组成;2.Hadoop 集群可以运行在_ 单机模式 _ ,_ 伪分布式模式 _ 和_ 完全分布式模式 _ 3 个模式?3.安装完全分布式Apache Hadoop 的核心配置文件有_ core-site.xml _、 _ hdfs- site.xml _、 _ mapred-site.xml _、 _ yarn-site.xml _;4.

2、HBase 中通过 _ HDFS _ 储备底层数据 、通过 _ _Zookeeper_ _供应消息通信机制5.HIVE 默认采纳 _ _ Derby _ _数据库进行元数据的储备,而真实的数据为储备在_ HDFS _中;6.如何在浏览器中查看HDFS 运行状况的默认端口号为_ 50070 _ 查看 yarn运行状态的默认端口号为 _ 8088 _7.HDFS 中当前 block大小为 128M、 假如当前要上传到HDFS 中的文件大小为300M ,那么在储备时会安排_ 3 _ 个 block进行储备;8.HDFS猎取根目录下的文件列表的命令shell 命令为 _hadoop fs -ls -R

3、 / _ ;根目录下创建hdfs 文件夹的shell 命令为 _ _hadoop fs -mkdir /hdfs _ ;9.YARN 架构中整个集群同一时间供应服务的ResourceManager 有_ 1 _ 个,负责集群资源的统一治理和调度;二.选择题(将正确的答案写入答题纸中;每题2 分,共 20 分)1.配置 Hadoop 时, JAVA_HOME包含在哪一个配置文件中(B) A hadoop-default.xmlBhadoop-env.sh Chadoop-site.xml Dconfiguration.xs2.下面哪个程序负责HDFS数据储备;( C) A)NameNodeB)J

4、obtracker C)Datanode D)secondaryNameNode3.以下关于Hadoop API 的说法错误选项(A )A Hadoop 的文件 API 不为通用的,只用于HDFS 文件系统BConfiguration 类的默认实例化方法为以HDFS 系统的资源配置为基础的CFileStatus 对象储备文件和目录的元数据DFSDataInputStream 为 java.io.DataInputStream 的子类4.HDfS中的block默认储存几份. ( A )A)3份B)2份C)1 份第 1 页,共 6 页 - - - - - - - - - -精品word 可编辑资料

5、 - - - - - - - - - - - - -D)不确定5.为销售报表展现开发一个MapReduce 作业,Mapper 输入数据的Key 为年份( IntWritable ),Value 表示商品标识(Text);以下哪一项打算该Mapper 的数据类型?(D )A. JobConf.setMapInputKeyClass与 JobConf.setMapInputValuesClassB. HADOOP_MAP_DATATYPES 环境变量C. 随作业一起提交的mapper-specification.xml文件D. InputFormat 格式类6.HDFS无法高效储备大量小文件,想

6、让它能处理好小文件,比较可行的改进策略不包括(D )A. 利用 SequenceFile.MapFile .Har 等方式归档小文件B. 多 Master 设计C. Block 大小适当调小D. 调大 namenode 内存或将文件系统元数据存到硬盘里7.以下哪个程序通常与NameNode 在一个节点启动?(D )a)SecondaryNameNode b)DataNode c)TaskTrackerd)Jobtracker8.下面与HDFS类似的框架为?(C)(A) NTFS(B) FAT32(C) GFS(D) EXT39 .HDFS 的为基于流数据模式拜访和处理超大文件的需求而开发的,默

7、认的最基本的储备单位为64M ,具有高容错.高牢靠性.高可扩展性.高吞吐率等特点,适合的读写任务为(C)A 一次写入,少次读写 B多次写入,少次读写C一次写入,多次读写D多次写入,多次读写10. HBase 中的批量加载底层使用(A)实现;A MapReduce B HiveC Coprocessor D BloomFilter三.简答题(将正确的答案写入答题纸中;每题5 分,共 20 分)1.简述下HDFS数据读流程;答:步骤如下,能大致描述清晰流程,没有关键错误即可1.跟 namenode 通信查询元数据 (block 所在的 datanode 节点),找到文件块所在的datanode第

8、2 页,共 6 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -服务器 2.选择一台datanode(就近原就,然后随机)服务器,恳求建立socket 流 3.datanode 开头发送数据(从磁盘里面读取数据放入流,以packet 为单位来做校验)4.客户端以packet 为单位接收,先在本地缓存,然后写入目标文件,后面的block 块就相当于为 append 到前面的 block 块最终合成最终需要的文件; 2.如何查看hadoop 进程并列出hadoop 的几个进程名答:使 用 jps 命令可查看hadoop 进程;

9、Namenode、 SecondaryNameNode,Datanode,ResourceManager, NodeManager3.请简述MapReduce 中 combiner.partition 的作用答:combiner :有时一个map 可能会产生大量的输出,combiner 的作用为在map 端对输出先做一次合并,以削减网络传输到reducer 的数量;留意: mapper 的输出为combiner 的输入, reducer 的输入为 combiner 的输出;partition :把 map 任务输出的中间结果根据key 的范畴划分成R 份(R 为预先定义的reduce 任务的个

10、数) ,划分时通常使用hash 函数,如: hash(key) mod R这样可以保证一段范畴内的key,肯定会由一个reduce 任务来处理;4.HBase 的检索支持3 种方式为哪些?答:(1) 通过单个Rowkey 拜访,即根据某个Rowkey 键值进行get 操作,这样猎取唯独一条记录;(2) 通过 Rowkey 的 range 进行 scan,即通过设置startRowKey 和 endRowKey ,在这个范畴内进行扫描;这样可以按指定的条件猎取一批记录;(3) 全表扫描,即直接扫描整张表中全部行记录;四.程序题(将正确的答案写入答题纸中;每题10 分,共 20 分)1.以一段 文

11、本作为输入对象,写一个WordCount程序;例如文本数据的情形如下第 3 页,共 6 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -统计出文本中每个单词显现的次数,输出结果如下面例子所示答:public classWordCount public static classTokenizerMapperextendsMapper private final staticIntWritableone= new IntWritable(1 ); privateTextword=new Text();public voidmap

12、(Object key、 Text value、 Context context)throwsIOException、 InterruptedException StringTokenizer itr =new StringTokenizer(value.toString();while(itr.hasMoreTokens() word .set(itr.nextToken();context.write(word 、one );public static classIntSumReducerextendsReducer privateIntWritableresult= new IntWri

13、table();public voidreduce(Text key、 Iterable values、 Context context)throwsIOException、 InterruptedException intsum =0;for(IntWritable val : values) sum += val.get();result.set(sum);context.write(key、result);第 4 页,共 6 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -public static voidmain(

14、String args)throwsException Configuration conf =newConfiguration();Job job = Job.getInstance(conf、word count); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class);job.setCombinerClass(IntSumReducer.class);job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.

15、class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job、new Path(args0 ); FileOutputFormat.setOutputPath(job、new Path(args1); System.exit(job.waitForCompletion(true) .0:1);2.写一段代码,利用Java api 操作 HDFS 文件系统,实现文件的上传和下载,Hadoop文件系统地址为hdfs:/hadoop:8020,将本地hadoop.txt文件上传至根目录下的ha

16、doop 文件夹中,将HDFS 中 hadoop 文件中的hadoop1.txt 下载到本地public classApp public static finalStringHDFS_PATH = hdfs:/hadoop:8020;public static voidmain(String args)throwsException / 创建 FileSystemConfiguration configuration =new Configuration();FileSystem fileSystem = FileSystem.get ( newURI( HDFS_PATH)、 configu

17、ration、hadoop);/ 文件上传Path localPath =new Path(hadoop.txt); Path hdfsPath =newPath(/hadoop); fileSystem.copyFromLocalFile(localPath、 hdfsPath);/ 文件下载hdfsPath =newPath(/hadoop/hadoop1.txt); localPath =new Path(hadoop1.txt); fileSystem.copyToLocalFile(hdfsPath、 localPath);五.分析题(将正确的答案写入答题纸中;每题20 分,共 20

18、 分)1.有如下一个场景,有一个1G 大小的一个文件,里面每一行为一个词,词的大小不超过16 字节,内存限制大小为1M ,要求返回频数最高的100 个词,写出解决问题主要思路;答:第 5 页,共 6 页 - - - - - - - - - -精品word 可编辑资料 - - - - - - - - - - - - -主要考察map 和 reduce 的运用分析,能表达出这几点即可得分Step1:次序读文件中,对于每个词x ,取 hash(x)%5000 ,然后根据该值存到5000 个小文件(记 为 f0 、f1 、. 、f4999 )中,这样每个文件大致为200k 左右,假如其中的有的文件超过了1M 大小,仍可以根据类似的方法连续往下分,直到分解得到的小文件的大小都不超过1M ;Step2:对每个小文件, 统计每个文件中显现的词以及相应的频率(可以采纳trie 树/hash_map 等),并取出显现频率最大的100 个词(可以用含100 个结点的最小堆) ,并把100 词及相应的频率存入文件,这样又得到了5000 个文件;Step3:把这 5000 个文件进行归并(类似与归并排序);第 6 页,共 6 页 - - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 高中资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁