大数据学习之路,很漫长,但是请放心,Java 转大数据很轻松,零基础学大数据也很轻松,我会陪着你们一起搞起来,干就完事了。
本篇文章有点长,都是我的真实感受。分为:开始、转折、成长、New Flag、关于此号、推荐、总结七个部分。
开始
我大学学的是软件工程专业,2018 年毕业。据统计,近几年毕业生中平均薪资最高的专业就是软件工程!还好我没有拉低平均水平,凭借自己努力和运气毕业去了一家金融大厂(杭州)实习。
我所在的部门是最挣钱的部门--资管,我们的系统覆盖了全部的金融业务,除了保险业务。每天完成正常的任务之后,也学了很多金融的业务,在这里奉劝大家不懂股票的小白,千万不要入市。这个行业,水太深了。具体的东西就不说了。
转折
虽然金融行业薪水可观,但是限于技术老套,甚至还在使用 delphi。做了一段时间之后,发现不适合自己,由于就有了离职的想法。去年经济大形势不大好,于是也不敢轻易裸辞。此时的心情是:不甘心就这样下去。
当时还不确定之后要走什么方向,看我公众号的改名记录就知道了,但是脑子真的一团糟!
2018 的 3 月 5 号,我给自己定了一个 Flag,下面是在码农翻身的知识星球里面发的半年目标。此时斗志满满。
事实证明,四个月业余时间学大数据是不够的,坚持下来,时间超出了预期。Hadoop 生态 和 Spark 生态以及数据仓库,数据建模,机器学习等等。有些资料来自于网上,还有来自一些教育机构的资料,剩下的可以从官网上找到文档。
看完了《大型网站架构》、《深入理解Java虚拟机》这两本书,《图解HTTP》耽搁下了。毕业旅行也带女朋友去了,只不过没去四川,去了北京,天津,济南和青岛。
关于大数据方面的书籍,我看了《离线和实时大数据开发实战》、《数据仓库结构设计与实施》、《Spark技术内幕》、《推荐系统实践》。挑重点部分看的,结合自己学的技术进行消化。
这个过程中,我听得最多的是 Beyond 的歌。坚持不下的时候就打开音乐,听一会再接着学。日日夜夜,也曾怀疑自己。
成长
直到目前,写的文章数量不是很多,等到达一定里程碑的时候,我会专门整理成一系列目录的。目前的文章,暂且列一下:
简述大数据技术
什么是数据仓库?谈谈我的理解
PageRank 算法,搜索引擎的关键技术
Sqoop 不完全实战
Flume 原理,分析,架构
kafka 简介、架构、安装
Kafka 遇上 Spark Streaming
Kafka 的数据丢失和重复消费
HBase 架构分析
HBase RowKey 设计
HBase 数据模型,体系架构,组件功能说明等总结
Hbase 在微博中的表设计,部分
Zookeeper 的恢复模式,广播模式,选举流程
Hadoop HA 深度解剖
Spark 调优整合篇-汇总(长文)
Spark 的 数据本地化,提供最佳的计算节点,终于入门了
Spark 调优一瞥 | shuffle 调优
Spark 的 shuffle 文件寻址流程
从收集数据,集群分析数据,BI展示
Flink 干货来袭 | Flink Forward China 2018 大会资料整理
上面是 2018 年忙里偷闲写的 20 篇关于大数据技术的文章。
New Flag
2019 我也给自己定下了几个目标,其中一个就是更新数量以及频率要提上去。每篇文章尽量短而有用,给大家把大数据讲清楚,这个任重而道远啊。
2018 年,转折。2019 年,蜕变。
三个原则:自我激励,自我认知,自我驱动。
加入合适的圈子,比如「码农翻身」、「帅张和他的朋友们」。
离开舒适区,不能回避痛苦。
刚来上海一周,面试了两家公司。有一个给了 offer,年薪 23 w 对于刚毕业的我来说,比之前的金融岗位少,不过可以接受。那个公司我挺喜欢的,自身发展空间大一些。数据平台要从头开始创建,部门整合为中台大数据部门。
目前我还没有入职,打算继续面试。
未来的计划,「坚持」、「用心」完成每一篇文章,能帮到大家最好了。
对大数据以及人工智能概念都是模糊不清的,该按照什么线路去学习,学完往哪方面发展,想深入了解,想学习的同学欢迎加入大数据学习qq群:458345782,有大量干货(零基础以及进阶的经典实战)分享给大家,并且有清华大学毕业的资深大数据讲师给大家免费授课,给大家分享目前国内最完整的大数据高端实战实用学习流程体系 。从java和linux入手,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享!
原文地址:https://blog.51cto.com/14217196/2379760