《大数据整理面试题.pdf》由会员分享,可在线阅读,更多相关《大数据整理面试题.pdf(12页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、Java 基础 1.面向对象的特征?2.如何限制一个类的继承?3.HashSet 的父类是什么?4.Exception 的基类是什么?5.Hashset 和 Treeset 有什么区别。6.Linkedlist 和 ArrayList 那个增添数据更快 7.Vector 与 ArrayList 和 linkedList 的区别 8.如何使 main 线程最后关闭 9.你自己说一下对 java 虚拟机的了解以及对 gc 机制的了解 10.ArrayList,Vector,LinkedList 的异同,及其效率问题;11.了解几种设计模式 12.怎么创建线程 13.是否了解 jvm 算法 1.你接
2、触过的排序有哪些?实现原理?a 2.接触过的算法都有哪些?3.给你一颗树,怎么把树左右颠倒?4.在一个大串中查找小串的算法。5.有一个 20G 的文件,有一台机器 4 核,8G 内存。有一个 1000 个词组。要求:生成一个新文件,将词组的词在文件中标记出来;重复的词只需要标记最大的词,例如:中国 中国人 中国人民 只需要标记 中国人民,不需要再标记中国 和 中国人 6.写出时间复杂度。7.二分查找算法编程实现 Web 阶段 1.说一下 web 服务器的启动过程。2.说一下 jsp 与 servlet 3.SQL 语句查询时如何提高性能;4.http、TCP、UDP 5.select from
3、 where group by having order by 这条语句中关键词执行的优先顺序 6.sql 中实现去重有几种方式 7.说三种 mysql 中的 sql 优化;框架 1.把你最熟悉的项目说一下(如京淘),以及把项目架构说一下 2.说一下你最熟悉的项目(京淘)以及这个项目的难点在哪里?3.什么是 ioc 4.什么是 aop 5.Shiro 的权限管理是如何实现.6.Sso 单点登录后如何跳转到当前页面.7.为什么不使用 Spring 的单点登录技术?8.Spring 是如何控制事物的.9.Springmvc 的工作原理 10.索引有几种形式,使用场景各是什么:11.说一下工作中数据
4、库遇到的数据倾斜以及解决方案 12.请描述一下 restful;13.所有浏览器的访问协议都是 http 吗?14.socket 和 tcp 有啥关系?15.介绍一下 maven 16.单点登录的权限是如何实现的 17.购物车都做了哪些内容:18.什么是主从复制,读写分离;大数据 linux 1.Linux 命令:(1)scp 命令,(2)查看进程,(3)查看 cpu 使用情况:top 2.查看进程的几种命令 3.查看错误异常的方法 4.临时切换 root 用户的几种命令,以及区别 5.文件系统的结构 6.挂载磁盘的命令 7.查看硬盘占用情况的命令 8.写出 Hadoop 你经常使用的一些命令
5、 1.nio 有没有用过。2.描述 RPC 的原理和用途:3.ZooKeeper 是啥?作用?4.为什么 zookeeper 集群的个数是奇数个 5.Hadoop 集群的搭建?6.Hadoop 读写及 shuffle 过程。7.Hadoop 是怎么协调集群的;8.Hadoop 上传文件的几种方式 9.Hadoop 集群优化。10.什么是 HDFS,还有它的工作原理?11.描写 HDFS 的读写流程,最好是画图和文字来说明。12.mapreduce 怎样避免数据倾斜。13.Map 和 reduce 之间是如何通信的 14.Mr 过程中用的是什么排序算法 15.是否会用 mr 写 wordcoun
6、t。16.怎么在 reduce 中实现二次排序:17.手写 worldcount 或者 hive 实现 SQL 统计分析 18.了解flume工具使用(老师讲的就够)最好是自己实现自定义source,sinks,channel。19.namenode 启动后发现 live 节点为零的原因和处理方法。20.如果给你一个集群 20datanode,其中一个挂了会发生什么事情?过一段时间挂掉的那个又恢复工作了又会发生什么事情?21.如果有一个 hadoop 集群,有 10 台 namenode 节点,但是有 20 台nodemanager,这时候会发生什么事情?22.不使用 hive,利用 MR 实
7、现两张数据表的 join:23.Hive 优化的要点 24.用 hql 实现两张表的合并(不是 join)25.说一下 Hbase 中 Hlog 作用 26.hbase 缺点。27.hbase 中 rowkey 的设计原则;28.hbase 中的 rowkey 的设计原则;hbase 在项目中主要用来做什么?29.Storm 的并发级别:node,work,extuor,task 级别;node 之间是如何相互通信的:?30.kafka 中默认的分区机制是什么?31.Kafka 中要实现重分区,该如何操作?32.Kafka 速度快的原因 33.实时数据是如何计算的:34.实时数据和离线数据是如
8、何整合的:35.是否使用过 impala 36.是否使用过图形数据库,比如 neo4j 37.怎样处理数据缺失(没有理想答案)38.你以前的经验 kafka 读写每秒多少 M,如何调优,如何进行性能测试。39.RDD 是什么?结构是什么?40.spark 都有哪些依赖;41.SparkStreaming 的原理;42.spark 性能调优,在不改变 spark 参数的情况下,如何能更多的使用主机内存。43.数据清洗需要注意的事情 44.你处理过最大的数据量?如何处理的?最终结果如何?软通动力大数据面试(02.14 上午)1.jvm 调优做过哪些 2.spark 性能调优 3.String s=
9、new String(abc)在内存中实际创建几个对象?(两个)4 Map 和 Set 简单解释下?5.hadoop2.0的 HA是通过如何实现的,几个 namenode?几个datanode?6.介绍下 kafka 7.介绍下 mr 的过程 8.介绍下 hadoop 性能调优 9.hive 的内部表,外部表的区别,一般喜欢用内部表还是外部表?10.hive 中的内部表外部表是否可以转化(配置一个相关参数)11.多线程用过没,简单介绍下 题外:面试官的时间宝贵,无关职位的话题尽量要少说,比如面试官突然问你有没有什么兴趣爱好,不要盲目说,可以直接说,我喜欢逛技术论坛,(stack overflo
10、w,美团技术点评之类的,)切记,切记,这是套路。某互联网金融公司-大数据初试(02.14 下午)技术经理直接面试 1.自我介绍,做过哪些项目,自己负责模块,用到哪些技术 2.redis 中如何使 key 失效?(设置 key 的生存时间)3.挑一个你熟悉的 hadoop 中经典图的讲一下 4.hadoop 运行原理。5.hive 的内部表 外部表的区别 6.hive 表的 sql 查询:有个单表 a,里面包含 id,name,score,class 字段,请用一个 sql 查询出 score 在 60 以下,60-80,80-100 各分数段的总人数 7.spark 简单介绍,8.storm
11、的介绍,亿阳信通集团-大数据面试(02.15 下午)架构师直接面试 前言:此架构师看到我的简历,直接打电话约我面试,见面后简单介绍,说我是非专业,大数据刚学完,想找一个大数据相关的工作,明显感觉到此架构师不太想要,我就抱着死马当活马 医的心态,将他当磨刀石吧,好歹来了,切记不要气馁,不要怄气,珍惜每次机会。1.自我介绍,2.该电商项目是否上线,并发量多少,3.你负责的前台详情页的展示,是否该电商网站的所有的商品都调用你的方法,是否通用,4.redis 如何使用的,5.更新商品后,redis 如何操作的,redis 遇到并发问题怎么解决的,比如一个前台看到的页面的显示的价格为 5 块钱,他一点击
12、加入购物车,你后台同时也修改了该商品的价格,如何保证不 出错 6.redis 你们用到是那种,分片还是 7.讲下 hadoop 中 mr 的 shuffle 过程,写 MR 时需要注意的问题(driver 中如何设置 map,reducer)8.了解 combine 不,为什么能减少 IO 操作 9.如果 map 阶段,相同的 key 不多时,如何做,(我回答的是:加大机器内存,并反问了下,他说他们也差不多这样做)10.介绍下 flume,flume 中的 source 是什么意思,channel 是什么意思,有几种类型的 channel(memory channel JDBC channel
13、 file channel 再加一个不常用的)11.spark 介绍下,spark sql 用过没 12.接口和抽象类的异同点,13.类实现接口了,必须要实现里面的全部方法不,有没有特例,(不必要,抽象方法实现了接口,就可以不必实现里面的方法,因为抽象方法本身就是定义方法,而没有方法体)14.hive 内部表外部表的区别,如何创建一个外部表(背语法)15.多线程用过没 结尾:上面的基本都答上来的,然后很老实的告诉我,说和他们的要求有些偏差,主要是经验不足,他们要求最低在 10 万行以上的代码量,但是有 Java 开发的岗位,做这个大数据管理系统 的 cdh 的,还有一个前端的职位,要不要考虑,
14、我直接说我还是想找一个大数据方面的工作,做其它不能积累大数据的开发经验 恒*通投资-大数据面试(达内推荐)(02.16 上午)先笔试,后面试 题外:一看笔试题,基本不会,什么线程锁,分布式锁,volidate 关键字修饰的线程,直接懵逼,想逃走,感觉脸上热热的,心理很难受,但是,转念一想,躲了这家,下一家呢,既来之 则安之吧,把能做的做完,不会的查一下,查不出来的,就这样吧,磨刀石心态,这样一想我都佩服我的厚脸皮了。等能做的做完后,后面的三道大题空白着,就找架构师去了,说,对不起,有些题确实不太会。架构师看了看,说,来找个地方先简单谈谈,他看着我没做的题,问了下,我说值栈溢出这些东西,我确实没
15、有遇到过,最后一个二叉树的我看不懂题,就让我讲了讲二叉树方面的知识。1.自我介绍,2.hadoop 的 mr 原理,shuffle 过程,mr 性能调优 3.map 的数量问题,4.一个文件不满128m,也就是在一个block中,是否可以设置两个map任务,5.reduce 的数量问题,6.介绍下 flume,说几种常用的 source 类型,sink 类型 7.介绍下 storm,几个节点,之类的 8.hive 的内部表,外部表区别,选择哪个比较好,(我答的外部表,然后反问了句,他说,一般情况下,如果想要 hive 全程掌控,最好用内部表,如果从安全角度来看,外部表比较安全,要综合考虑)9.
16、介绍下 spark 10.介绍下电商项目 11.redis 如何从各个节点读取数据,路径如何选择的,你们的集群如何搭建的 12.介绍下 zookeeper 原理,zookeeper 的选举机制,zookeeper 原子广播采取的协议(zab 协议),除了 zab 协议还了解哪些协议 13.你熟悉的算法和数据结构(直接老实回答的,不是这个专业的,这个我正在网易公开课上学)14.机器学习了解不(是否有熟悉的算法)(直接回答,和算法相关,真不懂)15.对多线程的理解 16.问我有没有什么问题,我就直接让他介绍下他们现在主要用到的大数据的技术,哪个用的多一些,对spark 的机器学习有没有使用,除了上
17、面的问题,还有些基本的,然后面试完毕,一看表一个多小时,他说让我等一下,通知人事来谈,人事说架构师比较满意,定位初级大数据研发工程师。走出来,心里的乌云一片片散去,开始慢慢绽放。水货加油了,等把水烧完了,就只剩下油了(老油条了)。某互联网金融公司-二面 (02.16 下午)上次技术经理面试过程中,看着我的简历一直说,没做多少东西,以为不报希望,结果,还给了二面机会,所以不要气馁,会柳岸花明又一村的。以为上次技术面试完,这轮不再技术面试,结果来了个一看就是很程序员的小伙子,拉着找了间会议室,开始技术面试,1.spring 的作用,spring 中的 IOC 和 AOP 了解不 2.mybatis
18、 中的一对多,多对多如何配置(能回答出使用标签来配置即可)3.mysql 的主从复制,读写分离,(aop 实现和 amiba 的实现)4.多线程的问题 5.Hadoop 中 mr 原理,6.map 中如何读取文件(考底层代码如何实现的)7.hive 中内部表外部表的区别 8.udf 和 udaf 会写不?9.介绍几个设计模式,以及为什么要设计这种模式 10.你会的排序算法,(介绍了下冒泡排序和二叉树排序,结果就二叉树问题开展了讨论,如何转树,如何使枝叶平衡,我心里突然感觉有一万只草泥马在奔腾)11.大数据项目中会话时间的确定?如何实现的。杂七杂八的,照着简历问了一个多小时,然后通知技术经理,技术经理通知人事进行第三轮面试,谈福利待遇,定位初级大数据研发工程师。又一片艳阳天袭来。