2019-12-30面试反思

面试公司: 一家中小型电商
面试中的问题:
- 思路不要太跳跃性, 不然容易尬。
- 引导的时候脑子需要快速运转该说什么。
- 自己熟的那块一定要准备充分答出百分之80以上。
- 排序算法, 选一个说: 建议快排, 归并, 面试前手写一下找找感觉。
  - 挖坑桶排: 需要对难点做准备: 按照什么条件分桶? 空间利用率的优化等。
  - 我下次打算挖坑下计排看看。
- Spark Core -> RDD -> 分类 -> 资源调度 -> Spark On Yarn
- 小文件处理:
  - hdfs
    - Hadoop Archive(HAR)
    - Sequence file
    - CombineFileInputFormat
  - HBase
    - 答的基本上可以了, minor compact, major compact(会删除数据, crontab脚本半夜手动合并), rowKey设计
- SparkStreaming
  - 建议使用Direct模式, kafka0.11的坐标与更高版本目前为止都是兼容的。
    - 没有使用 Zookeeper 管理消费者 offset, 使用的是 Spark 自己管理, 默认存在内存中, 可以设置 checkpoint, 也会保存到 checkpoint 中一份。
    - 读取 kafka 使用 Simple Consumer API, 可以手动维护消费者 offsset
    - 并行度与读取的 topic 的 partition 一一对应
    - 可以使用设置 checkpoint 的方式管理消费者 offset, 使用StreamingContext.getOrCreate(ckDir, CreateStreamingContext) 恢复。
    - 如果代码逻辑改变, 就不能使用 checkpoint 模式管理 offset, 可以手动维护消费者 offset, 可以将 offset 存储到外部系统。
  - 与kafka0.11以上版本的整合
  - kafka特性:
    - ISR
    - ACK
    - PageCache
    - ZeroCopy(netty)
    - 磁盘顺序写
    - 消息默认保留7天
    - 底层结合RocksDB可以直接当成数据库使用
    - 容错机制(checkpoint)
    - 是否有状态
    - 反压机制
      - 根据流数据的处理效率动态调整摄入速率，以达到限流的目的。
      - 当批处理时间(Batch Processing Time)大于批次间隔(Batch Interval，即 BatchDuration)时,说明处理数据的速度小于数据摄入的速度，持续时间过长或源头数据暴增，容易造成数据在内存中堆积，最终导致Executor OOM或任务奔溃。
  - 消息的幂等性
    - at least once
    - Exactly once
- SparkSQL
  - Spark on Hive / Hive on Spark
  - Dataset 与 DataFrame
    - Dataset -> DataFrame
  - 底层架构想的起来就说, 想不起来没事。
  - 谓词下推(这个是应该要说出来的)
- 机器学习:
  - 问了简单的线性回归梯度下降
  - 如果一定要用线性回归处理簇状数据该咋么处理?
    - 可以通过添加多项式特征进行升维(如sklearn中可以使用PolynomialFeatures)
    - 结论: 对于低维数据集，线性模型常常出现欠拟合的问题，而将数据集进行多项式特征扩展后，可以在一定程度上解决线性模型欠拟合的问题。
    - 线性回归一般升几个维度之后就不存在性能优势了。
    - 多维度数据还是适合用支持向量机SVM(Support vector machine)

原文地址：https://www.cnblogs.com/ronnieyuan/p/12127159.html

时间： 2024-11-09 04:47:27

2019-12-30面试反思的相关文章

2019.12.30考试总结

T1摆棋子看到这么多的限制,第一直觉就是网络流,最小费用最大流不能做,因为把棋子代价看成1后最大流的条件并不好满足. 注意到每一行每一列都有一个最小限制,对应到网络流上就是流的下界,整体跑一个有下界的最小流就可以了. #include<iostream> #include<cstring> #include<cstdio> #include<queue> #define LL long long #define DB double using namesp

2019.12.30日志

上午去学校上课下午回来学习了fhq treap,我吹爆大fhq treap,然后写了一题板子晚上去学校参加狂欢?然后T神去玩手机了,我在寒风中欣赏我大NFLS的篝火晚会(×),飘雪/冻死人晚会(√) 接着晚上去学OI,听了两题比较难的题的题解回家肝口试稿子,3h写完睡觉今日小结颓 1小时写题 1题 [模板]普通平衡树看题解 2题原文地址:https://www.cnblogs.com/xxjAc/p/12127635.html

每日思考（2019/12/30）

题目概览对<form>标签的enctype属性的理解 CSS的优先级是如何计算的为什么 JavaScript 中 0.1 0.2 不等于 0.3 ? 题目解答对<form>标签的enctype属性的理解 enctype的定义和用法:enctype属性规定在发送到服务器之前应该如何对表单数据进行编码.默认地,表单数据会编码为 "application/x-www-form-urlencoded".就是说,在发送到服务器之前,所有字符都会进行编码(空格转换为

关于2019的一些面试实战小结

今日头条屏幕适配的原理? 1:首先计算出 density,计算公式:当前设备屏幕总宽度(单位为像素)/ 设计图总宽度(单位为 dp) = densitydensity 的意思就是 1 dp 占当前设备多少像素计算density 的原因:在布局文件中填写的是什么单位,最后都会被转化为 px,系统就是通过上面的方法,将你在项目中任何地方填写的单位都转换为 px 但是,今日头条适配方案默认项目中只能以高或宽中的一个作为基准,来进行适配简述Android中的加固和使用平台? 加固:防止代码反编译,提高

【谜客帝国】第149届汝隅主擂谜会（2019.03.30）

[谜客帝国]第149届汝隅主擂谜会(2019.03.30) 主持:瓷计分:雪宝 1.赞歌唱6.1(动漫人物•卷帘)哆啦美 [赞扣美,1和6唱出来是哆啦] 2.“枕前泪共阶前雨,隔着窗儿滴到明”(明人)戚继光 3.湘玉呼展堂,赶紧去上工(4字对酒介绍语,含酒名)叫老白干 4.留下雄信待聚会(金融词二)存单.通汇 5.五音未闻宫徵羽(国际事件•重门)贸易战 [注:先扣商角,重门出底] 6.殷功是否尚存生(对歌手到场情况询问语2+3)崔健在不在 [注:崔护,字殷功] 7.“孤与云长,誓同生死:

【谜客帝国】第146届千江雪主擂谜会（2019.01.30）

[谜客帝国]第146届千江雪主擂谜会(2019.01.30) 主持:瓷计分:雪宝 1. 几回驻马观潮起(对人评价语)没主见 2. “他年我若为青帝”(商品连价位2+2)花生一块 [注:面出黄巢<题菊花>,启下句 “报与桃花一处开”] 3. 看我横戈行天下(东北方言)大手 4. 寒梅凋谢扑满衣(对<红楼梦>人物态度)冷落花袭人 5. 挥手拢琴动凡心(诛仙小说人物)玲珑 6. “纵使相逢应不识”(3字猜不出谜原因)面太生 [面出苏轼<江城子记梦>] 7. 松间小月

2019滴滴java面试总结 (包含面试题解析)

2019滴滴java面试总结 (包含面试题) 本人6年开发经验.今年年初找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.滴滴等公司offer,岗位是既有php也有Java后端开发,最终选择去了滴滴. 面试了很多家公司,感觉大部分公司考察的点都差不多,所以将自己的心得记下来,希望能给正在找或者准备找工作的朋友提供一点帮助.另外,目前在滴滴也做面试官的工作,身份从求职者变为面试官,看问题的很多角度也不一样,所以下文中既有求职者的视角,也有面试官的视角. 面试流程先说下面试流程,一般大公司都有3

JS时间格式化出现2015-02-07 hh:12:30

1.问题背景最近,做项目的过程中,遇到这样一个问题:利用JS对日期时间进行格式化时,页面出现了2015-02-07 hh:12:30,小时没有显示出数据:其中,hh换成HH时,有时小时位显示HH var dayTime = $("#endTime").val(); var dtime = new Date(dayTime); dtime.setTime(dtime.getTime()+365*100); var date = new Date(dtime.getTime()); $(

12.26~12.30工作日志

2016.12.26/27 1.writing-mode: vertical-rl;在电脑显示有效果,在手机端无效解决办法:改为 -webkit-writing-mode: vertical-rl; 2.div设置inline-block之后,如果没有设置固定宽高,div内的内容将正常显示,div缩为一个点????????? 3.设置float的元素最好设置好宽度,便于控制 4.document.getElementsByClassName(classname)获取的是数组数组!!!!就算获取

2015.12.29~2015.12.30真题回顾！-- HTML5学堂

2015.12.29~2015.12.30真题回顾!-- HTML5学堂吃饭,能够解决饥饿,提供身体运作机能.练习就像吃饭,强壮自己,提升编程技能,寻求编程技巧的最佳捷径!吃饭不能停,练习同样不能停哦! HTML5真题[2015.12.29]题目学习JavaScript或应用JavaScript进行脚本开发,“变量”这是必须要学会使用的.什么是变量呢?又什么作用呢?ok,大家稍安勿躁哦,试体验体验这题目<HTML5真题[2015.12.29]题目>与 <HTML5真题[2015.12