Hadoop学习路线

随着大数据的盛行，Hadoop也流行起来。面过一些公司，包括开发Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google，数不胜数了.

Hadoop 2.0转型基本无可阻挡，今年下半年要正式发布了，它的出现让大家知识体系都要更新了。Hadoop1.0搞了8年才发布，2.0不到2年就出来了。2.0的核心是YARN，它的诞生还是有趣的故事

YARN介绍

Hadoop 生态系统

Hadoop Ecosystem at a Glance

SQL on Hadoop

Hadoop Summit

Hadoop Summit, San Jose

书籍和Paper

“Hadoop: The Definitive Guide”: 里面内容非常好，既有高屋建瓴，又有微观把握，基本适用于1.X版本。比如mapreduce各个子阶段，Join在里面也有代码实现，第三版

Google的三辆马车，GFS, MapReduce, BigTable Google的新三辆马车：Caffeine、Pregel、Dremel

Big Data beyond MapReduce: Google’s Big Data papers

SIGMOD, VLDB Top DB conference

入门：

知道MapReduce大致流程，Map, Shuffle, Reduce
知道Combiner, partition作用，设置Compression
搭建Hadoop集群，Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
Pig, Hive 简单语法，UDF写法

Hadoop 2.0新知识; HDFS2 HA，Snapshot, ResourceManager,ApplicationsManager, NodeManager

进阶:

HDFS，Replica如何定位
HDFS Design
Hadoop 参数调优，性能优化，Cluster level: JVM, Map/Reduce Slots, Job level: Reducer #, Memory, use Combiner? use Compression?
7 Tips for Improving MapReduce Performance
Hadoop Summit 2010 Tuning Hadoop To Deliver Performance To Your Application
HBase 搭建，Region server, key如何选取?
数据倾斜怎么办？

算法：

字典同位词
翻译SQL语句 select count(x) from a group by b;
MapReduce Algorithms
Designing algorithms for Map Reduce

Blog

关注Cloudera, Hortonworks, MapR

相关系统

数据流系统: Storm
内存计算系统: Spark and Shark
交互式实时系统：Cloudera Impala， Apache Drill (Dremel开源实现），Tez (Hortonworks)

公司列表：

其他

Hadoop进化目标：开发部署傻瓜化，性能更强劲，最后为程序员标配。
核心都是被寡头控制的，记得一边文章说一流的公司卖标准，二流的公司卖技术，三流的公司卖产品，H和C有最多的committer，自然就影响着整个Hadoop社区。
技术就是日新月异，还是多看看那些公司的博客，关注感兴趣的新产品，Hortonworks Stack
在Hadoop系统中从头裸写MapReduce不现实了，ETL基本靠Hive,Pig, 还有Cascading,Scalding
MapReduce并不是最优的，仅适合批处理，很多问题：JVM的启动overhead很大，小 Job更明显，数据必须先存储，不适合迭代计算，延迟高。DB学术圈讨论很久tradeoff 了,MapReduce: 一个巨大的倒退

原文地址：https://www.cnblogs.com/gala1021/p/8552137.html

时间： 2024-07-28 18:04:12

Hadoop学习路线的相关文章

Hadoop学习路线（很值得推荐）

此笔,对于仅对于Hadoop初学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在多线程和并行化多多理解实践即可. 书籍方面: 推荐李兴华的<java开发实战经典> 2 Linux基础: 视频方面: (1)马哥的高薪Linux视频课程-Linux入门. (2)兄弟连的新版Linux视频教程. (3)老段的讲解鸟哥Linux基础+私房菜. (4)老男孩的Linux.

[hadoop]hadoop学习路线

1.主要学习hadoop中的四大框架:hdfs.mapreduce.hive.hbase.这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的. 2.熟悉了解hadoop基本知识及其所需要的知识例如java基础.linux环境.linux常用命令 3.hadoop一些基本知识:hadoop HDFS文件系统的特征.Map/Reduce.Hadoop mapper类的阅读.Hadoop reducer类的阅读.Mapreduce shuffle和排序 4.hadoop部署方式为单机

Hadoop学习第一次：hadoop概念

1.大数据学习方向:一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小.现在的集中式架构要么性能达不到要求,要么就是过于昂贵.我期待一

Hadoop生态系统学习路线

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线Hadoop学习干货分享,Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件.Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据).包括这些模块: Hadoop Common:支持其他Hadoop模块的常用工具. Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问. Hadoop YARN:作业调度和集群资源管理的框架. Hadoop MapRedu

好程序员大数据学习路线分享Hadoop阶段的高可用配置

大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA HDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现双namenode协调工作的要点:A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Act

java学习路线及资源下载，持续整理中

java学习路线及资源下载,持续整理中学习路线图:http://blog.csdn.net/shenzhq1980/article/details/484703371.java学习经典书籍_基础编程篇下载地址:http://blog.csdn.net/shenzhq1980/article/details/48375543书籍:Java程序设计语言.(美国)阿诺德.清晰版JAVA2核心技术第1卷.基础知识7thJAVA2核心技术卷II:高级特性7th Java语言程序设计-基础篇(原书第8版)

Hadoop学习之路（一）——Hadoop家族学习路线图

Hadoop学习路线图

Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Ha