大数据整理面试题.pdf-淘文阁

资源描述

《大数据整理面试题.pdf》由会员分享，可在线阅读，更多相关《大数据整理面试题.pdf（12页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、Java 基础 1.面向对象的特征？2.如何限制一个类的继承？3.HashSet 的父类是什么？4.Exception 的基类是什么？5.Hashset 和 Treeset 有什么区别。6.Linkedlist 和 ArrayList 那个增添数据更快 7.Vector 与 ArrayList 和 linkedList 的区别 8.如何使 main 线程最后关闭 9.你自己说一下对 java 虚拟机的了解以及对 gc 机制的了解 10.ArrayList,Vector,LinkedList 的异同，及其效率问题；11.了解几种设计模式 12.怎么创建线程 13.是否了解 jvm 算法 1.你接

2、触过的排序有哪些？实现原理?a 2.接触过的算法都有哪些？3.给你一颗树，怎么把树左右颠倒？4.在一个大串中查找小串的算法。5.有一个 20G 的文件，有一台机器 4 核，8G 内存。有一个 1000 个词组。要求：生成一个新文件，将词组的词在文件中标记出来；重复的词只需要标记最大的词，例如：中国中国人中国人民只需要标记中国人民，不需要再标记中国和中国人 6.写出时间复杂度。7.二分查找算法编程实现 Web 阶段 1.说一下 web 服务器的启动过程。2.说一下 jsp 与 servlet 3.SQL 语句查询时如何提高性能；4.http、TCP、UDP 5.select from

3、 where group by having order by 这条语句中关键词执行的优先顺序 6.sql 中实现去重有几种方式 7.说三种 mysql 中的 sql 优化；框架 1.把你最熟悉的项目说一下（如京淘），以及把项目架构说一下 2.说一下你最熟悉的项目（京淘）以及这个项目的难点在哪里？3.什么是 ioc 4.什么是 aop 5.Shiro 的权限管理是如何实现.6.Sso 单点登录后如何跳转到当前页面.7.为什么不使用 Spring 的单点登录技术?8.Spring 是如何控制事物的.9.Springmvc 的工作原理 10.索引有几种形式，使用场景各是什么：11.说一下工作中数据

4、库遇到的数据倾斜以及解决方案 12.请描述一下 restful；13.所有浏览器的访问协议都是 http 吗？14.socket 和 tcp 有啥关系？15.介绍一下 maven 16.单点登录的权限是如何实现的 17.购物车都做了哪些内容：18.什么是主从复制，读写分离；大数据 linux 1.Linux 命令：(1)scp 命令，(2)查看进程，(3)查看 cpu 使用情况:top 2.查看进程的几种命令 3.查看错误异常的方法 4.临时切换 root 用户的几种命令，以及区别 5.文件系统的结构 6.挂载磁盘的命令 7.查看硬盘占用情况的命令 8.写出 Hadoop 你经常使用的一些命令

5、 1.nio 有没有用过。2.描述 RPC 的原理和用途：3.ZooKeeper 是啥？作用？4.为什么 zookeeper 集群的个数是奇数个 5.Hadoop 集群的搭建？6.Hadoop 读写及 shuffle 过程。7.Hadoop 是怎么协调集群的；8.Hadoop 上传文件的几种方式 9.Hadoop 集群优化。10.什么是 HDFS，还有它的工作原理？11.描写 HDFS 的读写流程，最好是画图和文字来说明。12.mapreduce 怎样避免数据倾斜。13.Map 和 reduce 之间是如何通信的 14.Mr 过程中用的是什么排序算法 15.是否会用 mr 写 wordcoun

6、t。16.怎么在 reduce 中实现二次排序：17.手写 worldcount 或者 hive 实现 SQL 统计分析 18.了解flume工具使用（老师讲的就够）最好是自己实现自定义source，sinks，channel。19.namenode 启动后发现 live 节点为零的原因和处理方法。20.如果给你一个集群 20datanode，其中一个挂了会发生什么事情？过一段时间挂掉的那个又恢复工作了又会发生什么事情？21.如果有一个 hadoop 集群，有 10 台 namenode 节点，但是有 20 台nodemanager，这时候会发生什么事情？22.不使用 hive，利用 MR 实

7、现两张数据表的 join：23.Hive 优化的要点 24.用 hql 实现两张表的合并（不是 join）25.说一下 Hbase 中 Hlog 作用 26.hbase 缺点。27.hbase 中 rowkey 的设计原则；28.hbase 中的 rowkey 的设计原则；hbase 在项目中主要用来做什么？29.Storm 的并发级别:node,work,extuor,task 级别;node 之间是如何相互通信的:?30.kafka 中默认的分区机制是什么?31.Kafka 中要实现重分区,该如何操作?32.Kafka 速度快的原因 33.实时数据是如何计算的：34.实时数据和离线数据是如

8、何整合的：35.是否使用过 impala 36.是否使用过图形数据库，比如 neo4j 37.怎样处理数据缺失（没有理想答案）38.你以前的经验 kafka 读写每秒多少 M,如何调优，如何进行性能测试。39.RDD 是什么？结构是什么？40.spark 都有哪些依赖；41.SparkStreaming 的原理；42.spark 性能调优，在不改变 spark 参数的情况下，如何能更多的使用主机内存。43.数据清洗需要注意的事情 44.你处理过最大的数据量？如何处理的？最终结果如何？软通动力大数据面试（02.14 上午）1.jvm 调优做过哪些 2.spark 性能调优 3.String s=

9、new String(abc)在内存中实际创建几个对象？（两个）4 Map 和 Set 简单解释下？5.hadoop2.0的 HA是通过如何实现的，几个 namenode?几个datanode？6.介绍下 kafka 7.介绍下 mr 的过程 8.介绍下 hadoop 性能调优 9.hive 的内部表，外部表的区别，一般喜欢用内部表还是外部表？10.hive 中的内部表外部表是否可以转化（配置一个相关参数）11.多线程用过没，简单介绍下题外：面试官的时间宝贵，无关职位的话题尽量要少说，比如面试官突然问你有没有什么兴趣爱好，不要盲目说，可以直接说，我喜欢逛技术论坛，（stack overflo

10、w，美团技术点评之类的，)切记，切记，这是套路。某互联网金融公司-大数据初试（02.14 下午）技术经理直接面试 1.自我介绍，做过哪些项目，自己负责模块，用到哪些技术 2.redis 中如何使 key 失效？（设置 key 的生存时间）3.挑一个你熟悉的 hadoop 中经典图的讲一下 4.hadoop 运行原理。5.hive 的内部表外部表的区别 6.hive 表的 sql 查询：有个单表 a，里面包含 id,name,score,class 字段，请用一个 sql 查询出 score 在 60 以下，60-80，80-100 各分数段的总人数 7.spark 简单介绍，8.storm

11、的介绍，亿阳信通集团-大数据面试（02.15 下午）架构师直接面试前言：此架构师看到我的简历，直接打电话约我面试，见面后简单介绍，说我是非专业，大数据刚学完，想找一个大数据相关的工作，明显感觉到此架构师不太想要，我就抱着死马当活马医的心态，将他当磨刀石吧，好歹来了，切记不要气馁，不要怄气，珍惜每次机会。1.自我介绍，2.该电商项目是否上线，并发量多少，3.你负责的前台详情页的展示，是否该电商网站的所有的商品都调用你的方法，是否通用，4.redis 如何使用的，5.更新商品后，redis 如何操作的，redis 遇到并发问题怎么解决的，比如一个前台看到的页面的显示的价格为 5 块钱，他一点击

12、加入购物车，你后台同时也修改了该商品的价格，如何保证不出错 6.redis 你们用到是那种，分片还是 7.讲下 hadoop 中 mr 的 shuffle 过程，写 MR 时需要注意的问题（driver 中如何设置 map,reducer)8.了解 combine 不，为什么能减少 IO 操作 9.如果 map 阶段，相同的 key 不多时，如何做，（我回答的是：加大机器内存，并反问了下，他说他们也差不多这样做）10.介绍下 flume，flume 中的 source 是什么意思，channel 是什么意思，有几种类型的 channel(memory channel JDBC channel

13、 file channel 再加一个不常用的）11.spark 介绍下，spark sql 用过没 12.接口和抽象类的异同点，13.类实现接口了，必须要实现里面的全部方法不，有没有特例，(不必要，抽象方法实现了接口，就可以不必实现里面的方法，因为抽象方法本身就是定义方法，而没有方法体）14.hive 内部表外部表的区别，如何创建一个外部表（背语法）15.多线程用过没结尾：上面的基本都答上来的，然后很老实的告诉我，说和他们的要求有些偏差，主要是经验不足，他们要求最低在 10 万行以上的代码量，但是有 Java 开发的岗位，做这个大数据管理系统的 cdh 的，还有一个前端的职位，要不要考虑，

14、我直接说我还是想找一个大数据方面的工作，做其它不能积累大数据的开发经验恒*通投资-大数据面试（达内推荐）（02.16 上午）先笔试，后面试题外：一看笔试题，基本不会，什么线程锁，分布式锁，volidate 关键字修饰的线程，直接懵逼，想逃走，感觉脸上热热的，心理很难受，但是，转念一想，躲了这家，下一家呢，既来之则安之吧，把能做的做完，不会的查一下，查不出来的，就这样吧，磨刀石心态，这样一想我都佩服我的厚脸皮了。等能做的做完后，后面的三道大题空白着，就找架构师去了，说，对不起，有些题确实不太会。架构师看了看，说，来找个地方先简单谈谈，他看着我没做的题，问了下，我说值栈溢出这些东西，我确实没

15、有遇到过，最后一个二叉树的我看不懂题，就让我讲了讲二叉树方面的知识。1.自我介绍，2.hadoop 的 mr 原理，shuffle 过程，mr 性能调优 3.map 的数量问题，4.一个文件不满128m,也就是在一个block中，是否可以设置两个map任务，5.reduce 的数量问题，6.介绍下 flume，说几种常用的 source 类型，sink 类型 7.介绍下 storm,几个节点，之类的 8.hive 的内部表，外部表区别，选择哪个比较好，（我答的外部表，然后反问了句，他说，一般情况下，如果想要 hive 全程掌控，最好用内部表，如果从安全角度来看，外部表比较安全，要综合考虑）9.

16、介绍下 spark 10.介绍下电商项目 11.redis 如何从各个节点读取数据，路径如何选择的，你们的集群如何搭建的 12.介绍下 zookeeper 原理，zookeeper 的选举机制，zookeeper 原子广播采取的协议(zab 协议），除了 zab 协议还了解哪些协议 13.你熟悉的算法和数据结构（直接老实回答的，不是这个专业的，这个我正在网易公开课上学）14.机器学习了解不（是否有熟悉的算法）（直接回答，和算法相关，真不懂）15.对多线程的理解 16.问我有没有什么问题，我就直接让他介绍下他们现在主要用到的大数据的技术，哪个用的多一些，对spark 的机器学习有没有使用，除了上

17、面的问题，还有些基本的，然后面试完毕，一看表一个多小时，他说让我等一下，通知人事来谈，人事说架构师比较满意，定位初级大数据研发工程师。走出来，心里的乌云一片片散去，开始慢慢绽放。水货加油了，等把水烧完了，就只剩下油了（老油条了）。某互联网金融公司-二面（02.16 下午）上次技术经理面试过程中，看着我的简历一直说，没做多少东西，以为不报希望，结果，还给了二面机会，所以不要气馁，会柳岸花明又一村的。以为上次技术面试完，这轮不再技术面试，结果来了个一看就是很程序员的小伙子，拉着找了间会议室，开始技术面试，1.spring 的作用，spring 中的 IOC 和 AOP 了解不 2.mybatis

18、中的一对多，多对多如何配置（能回答出使用标签来配置即可）3.mysql 的主从复制，读写分离，（aop 实现和 amiba 的实现）4.多线程的问题 5.Hadoop 中 mr 原理，6.map 中如何读取文件（考底层代码如何实现的）7.hive 中内部表外部表的区别 8.udf 和 udaf 会写不？9.介绍几个设计模式，以及为什么要设计这种模式 10.你会的排序算法，（介绍了下冒泡排序和二叉树排序，结果就二叉树问题开展了讨论，如何转树，如何使枝叶平衡，我心里突然感觉有一万只草泥马在奔腾）11.大数据项目中会话时间的确定？如何实现的。杂七杂八的，照着简历问了一个多小时，然后通知技术经理，技术经理通知人事进行第三轮面试，谈福利待遇，定位初级大数据研发工程师。又一片艳阳天袭来。

展开阅读全文