大数据面试题汇总(不断更新中)

结合自身面试经历,包括BAT、SF、中信等等公司所做的面试题汇总。主要包括以下几大类:

一、spark相关

1.Spark的Shuffle原理及调优?
2.hadoop和spark使用场景?
3.spark如何保证宕机迅速恢复?
4.hadoop和spark的相同点和不同点?
5.RDD持久化原理?
6.checkpoint检查点机制?
7.checkpoint和持久化机制的区别?
8.Spark Streaming和Storm有何区别? 
9.RDD机制? 
10.Spark streaming以及基本工作原理?
11.DStream以及基本工作原理?
12.spark有哪些组件? 
13.spark工作机制? 
14.Spark工作的一个流程?
15.spark核心编程原理?
16.spark基本工作原理?
17.spark性能优化有哪些?
18.updateStateByKey详解?
19.宽依赖和窄依赖?
20.spark streaming中有状态转化操作?
21.spark常用的计算框架?
22.spark整体架构?
23.Spark的特点是什么?
24.搭建spark集群步骤?
25.Spark的三种提交模式是什么?
26..spark内核架构原理?
27.Spark yarn-cluster架构?
28.Spark yarn-client架构?
29.SparkContext初始化原理?
30.Spark主备切换机制原理剖析?
31.spark支持故障恢复的方式?
32.spark解决了hadoop的哪些问题?
33.数据倾斜的产生和解决办法?
34.spark 实现高可用性:High Availability?

35.spark实际工作中,是怎么来根据任务量,判定需要多少资源的?

36.spark中怎么解决内存泄漏问题?

二、hadoop

1.讲述HDFS上传文件和读文件的流程?
2.HDFS在上传文件的时候,如果其中一个块突然损坏了怎么办?
3.NameNode的作用?
4.NameNode在启动的时候会做哪些操作?
5.NameNode的HA?
6.Hadoop的作业提交流程?
7.Hadoop怎么分片?
8.如何减少Hadoop Map端到Reduce端的数据传输量?
9.Hadoop的Shuffle?
10.哪些场景才能使用Combiner呢?
11.HMaster的作用?
12.如何实现hadoop的安全机制?
13.hadoop的调度策略的实现,你们使用的是那种策略,为什么?
14.数据倾斜怎么处理?
15.评述hadoop运行原理?
16.简答说一下hadoop的map-reduce编程模型?
17.hadoop的TextInputFormat作用是什么,如何自定义实现?
18.map-reduce程序运行的时候会有什么比较常见的问题?
19.Hadoop平台集群配置、环境变量设置?
20.Hadoop性能调优?

21.Hadoop高并发?

三、HBase

1.HBase的操作数据的步骤?
2.HDFS和HBase各自使用场景?
3.热点现象及解决办法?
4.RowKey的设计原则?
5.hbase.hregion.max.filesize应该设置多少合适?
6.autoflush=false的影响?
8.Hbase行健列族的概念,物理模型,表的设计原则?
9.HBase存储单元Cell?
10.HBase物理模型?
11.HBase的客户端Client?

12.HBase二级索引?

四、Hive

1. hadoop中两个大表实现join的操作,简单描述?
2.Hive中存放是什么?
3.Hive与关系型数据库的关系?
4.讲一下数据库,SQl ,左外连接, 原理,实现?
5.大表和小表join?
6. 数据清洗怎么做的?怎么用spark做数据清洗?
7. Hadoop中二次排序怎么做?
8. hadoop常见的join操作?
9. hive优化有哪些?

10. 分析函数?

五、Java

1.讲讲多线程吧,要是你,你怎么实现一个线程池呢?
2.项目用什么语言写? Scala? Scala的特点? 和Java的区别?
3.平时对多线程这方面是怎么处理呢?
4.什么是jvm?
5.jvm怎么调优的?
6.jvm结构?堆里面几个区?
7.jdbc?mysql的驱动包名字叫什么?
8.java自带有哪几种线程池?
9. GC机制?
10. 使用泛型的好处?
11.HashMap?

12.Java多线程的状态?

六、机器学习算法

1.简要描述你知道的数据挖掘算法和使用场景?
2.mllib支持的算法?
3.ALS算法原理?
4.kmeans算法原理?
5.canopy算法原理? 
6.朴素贝叶斯分类算法原理?

7.关联规则挖掘算法apriori原理?

百度云里是自己对这些题目的一些理解,不断完善中。欢迎不断完善!

链接:https://pan.baidu.com/s/1oEfDcgXAgqfEvbDlJMMnmA 密码:lkjs

参考博客地址:https://blog.csdn.net/abc50319/article/details/80107179

原文地址:https://www.cnblogs.com/xushirong/p/9035660.html

时间: 2024-10-12 04:03:56

大数据面试题汇总(不断更新中)的相关文章

第四期:有关大数据相关问答汇总,持续更新哦~

NO.1 大数据为什么这么"火"?为什么那么多人转型学大数据? 回答一:身为数据极客,在2017年应该能感觉很幸福. 去年,我们曾经问过大家"大数据还是个值得关注的大事吗?",并注意到由于大数据更像是一种"系统化工程",因此在企业的接受速度方面要落后于整个业界的炒作.大数据技术用了多年时间进行演化,才从一种看起来很酷的新技术变成企业在生产环境中实际部署的核心企业级系统. 2017年,我们已经很适应这样的部署阶段."大数据"这个

大数据学习笔记6·社会计算中的大数据(4)

上一篇介绍了LifeSpec项目,这个项目是关于用户理解和用户画像的.这篇是社会计算部分的最后一篇,关于用户连接和图隐私. 用户连接与隐私保护 用户连接与隐私保护有很强的相关性. 上图中,左边有两个网络.对于用户连接,我们的目标是映射这两个网络和连接这些网络中的用户节点.然后,我们就能产生一个更大的网络.这样,用户就能够被连接在一起,我们就可以知道跨网络的用户信息. 但是,如果从隐私的角度来看这个问题,把第一个图看成一个匿名化处理后的图,称其为目标图:把第二张图看成辅助图或者攻击者可获得的信息.

中国健康、医疗大数据中心盘点(持续更新)

中国健康.医疗大数据中心盘点(持续更新) 1.三个国家队 中国健康医疗大数据股份有限公司.中国健康医疗大数据产业发展集团公司和中国健康医疗大数据科技发展集团公司 4月份,中国健康医疗大数据产业发展集团公司由中国电子信息产业集团公司.国家开发投资公司.中国联合网络通信有限公司.中国国有企业结构调整基金股份有限公司宣布正式筹建:随后,中国健康医疗大数据科技发展集团公司由中国科学院控股有限公司.中国银行.工商银行.中国电信.中国信达.广州城投等公司宣布筹建,公司将于7月底之前完成筹备,与相关试点城市政

Xcode编译异常和警告汇总(持续更新中)

1.Method definition for 'xxx' not found xxx的方法没有实现 出现原因.h声明了xxx方法但是.m没有实现xxx方法 解决方法:在类的.m文件实现xxx方法 2. Instance variable ‘xxx' accessed in class method  在类方法中访问了'xxx’实例变量 出现原因:在类方法中使用了实例变量 解决方法:如果真得需要在类方法中使用某个变量,可以把这个变量定义成全局变量,而不要实例变量,如在类方法外面定义变量(就是定义

第二期:关于十大数据相关问答汇总,关注持续更新中哦~

NO.1 学大数据如何零基础入门? 答:学习任何东西都一样,一开始就是一道坎,我很喜欢看书,特别是容易入门的书.对于大数据,我的具体研究方向是大规模数据的机器学习应用,所以首先要掌握以下基本概念.微积分(求导,极值,极限)线性代数(矩阵表示.矩阵计算.特征根.特征向量)概率论+统计(很多数据分析建模基于统计模型).统计推断.随机过程线性规划+凸优化.非线性规划等*数值计算.数值线代等当然一开始只要有微积分.线代以及概率论基本上就可以入门机器学习,我强烈推荐几本书,这几本书不需要看完,只需要对其中

大数据系列文章汇总 - 更新到15篇

转自:http://blog.csdn.net/matthewei6/article/details/50615816 大数据(一) - hadoop生态系统及版本演化大数据(二) - HDFS大数据(三) - YARN大数据(四) - MapReduce大数据(五) - HBase大数据(六) - ZooKeeper大数据(七) - Flume大数据(八) - Sqoop大数据(九) - Hive大数据(十) - Pig大数据(十一) - Mahout大数据(十二) - Oozie大数据(十三

117道有关大数据面试题解析,希望对你有所帮助

一 .简述如何安装配置apache 的一个开源的hadoop 使用root账户登陆 2.修改ip 3.修改host主机名 4.配置ssh 免密登陆 5.关闭防火墙 6.安装JDK 7.解压hadoop安装包 8.配置hadoop的核心配置文件 hadoop-env.sh? core-site.xml? mapred-site.xml yarn-site.xml hdfs-site.xml 9.配置hadoop 的环境变量 10 .格式化hadoop namenode-format 启动节点sta

117道有关大数据面试题的解析,希望对你有所帮助!

一 .简述如何安装配置apache 的一个开源的hadoop 使用root账户登陆 2.修改ip 3.修改host主机名 4.配置ssh 免密登陆 5.关闭防火墙 6.安装JDK 7.解压hadoop安装包 8.配置hadoop的核心配置文件 hadoop-env.sh? core-site.xml? mapred-site.xml yarn-site.xml hdfs-site.xml 9.配置hadoop 的环境变量 10 .格式化hadoop namenode-format 启动节点sta

经典大数据面试题

什么是大数据? 大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力.洞察力和流程优化能力的海量.高增长率和多样化的信息资产. 在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的<大数据时代>中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理.大数据的4V特点:Volume(大量).Velocity(高速).Variety(多样).Value(价值). 1>给一个超过100G大小的log file,log中存着IP地址