Hadoop学习路线

随着大数据的盛行,Hadoop也流行起来。面过一些公司,包括开发Hadoop :如Cloudera, Hortonworks, MapR, Teradata, Greenplum, Amazon EMR, 使用Hadoop的除了Google,数不胜数了.

Hadoop 2.0转型基本无可阻挡,今年下半年要正式发布了,它的出现让大家知识体系都 要更新了。Hadoop1.0搞了8年才发布,2.0不到2年就出来了。2.0的核心是YARN,它的 诞生还是有趣的故事

YARN介绍

Hadoop 生态系统

SQL on Hadoop

Hadoop Summit

书籍和Paper

“Hadoop: The Definitive Guide”: 里面内容非常好,既有高屋建瓴,又有微观把握,基本适用于1.X版本。比如mapreduce各个子阶段,Join在里面也有代码实现,第三版

Google的三辆马车,GFS, MapReduce, BigTable Google的新三辆马车:Caffeine、Pregel、Dremel

SIGMOD, VLDB Top DB conference

入门:

  1. 知道MapReduce大致流程,Map, Shuffle, Reduce
  2. 知道Combiner, partition作用,设置Compression
  3. 搭建Hadoop集群,Master/Slave 都运行那些服务 NameNode, DataNode, JobTracker, TaskTracker
  4. Pig, Hive 简单语法,UDF写法

Hadoop 2.0新知识; HDFS2 HA,Snapshot, ResourceManager,ApplicationsManager, NodeManager

进阶:

算法:

Blog

关注Cloudera, Hortonworks, MapR

相关系统

  • 数据流系统: Storm
  • 内存计算系统: Spark and Shark
  • 交互式实时系统:Cloudera Impala, Apache Drill (Dremel开源实现),Tez (Hortonworks)

公司列表:

其他

  • Hadoop进化目标:开发部署傻瓜化,性能更强劲,最后为程序员标配。
  • 核心都是被寡头控制的,记得一边文章说一流的公司卖标准,二流的公司卖技术,三 流的公司卖产品,H和C有最多的committer,自然就影响着整个Hadoop社区。
  • 技术就是日新月异,还是多看看那些公司的博客,关注感兴趣的新产品,Hortonworks Stack
  • 在Hadoop系统中从头裸写MapReduce不现实了,ETL基本靠Hive,Pig, 还有Cascading,Scalding
  • MapReduce并不是最优的,仅适合批处理,很多问题:JVM的启动overhead很大,小 Job更明显,数据必须先存储,不适合迭代计算,延迟高。DB学术圈讨论很久tradeoff 了,MapReduce: 一个巨大的倒退

原文地址:https://www.cnblogs.com/gala1021/p/8552137.html

时间: 2024-07-28 18:04:12

Hadoop学习路线的相关文章

Hadoop学习路线(很值得推荐)

此笔,对于仅对于Hadoop初学者.高手请忽略! 1 Java基础: 视频方面:          推荐<毕向东JAVA基础视频教程>.学习hadoop不需要过度的深入,java学习到javase,在多线程和并行化多多理解实践即可. 书籍方面: 推荐李兴华的<java开发实战经典> 2 Linux基础: 视频方面: (1)马哥的高薪Linux视频课程-Linux入门. (2)兄弟连的新版Linux视频教程. (3)老段的讲解鸟哥Linux基础+私房菜. (4)老男孩的Linux.

[hadoop]hadoop学习路线

1.主要学习hadoop中的四大框架:hdfs.mapreduce.hive.hbase.这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的. 2.熟悉了解hadoop基本知识及其所需要的知识例如java基础.linux环境.linux常用命令 3.hadoop一些基本知识:hadoop HDFS文件系统的特征.Map/Reduce.Hadoop mapper类的阅读.Hadoop reducer类的阅读.Mapreduce shuffle和排序 4.hadoop部署方式为单机

Hadoop学习第一次:hadoop概念

1.大数据学习方向:一是系统建设技术,二,海量数据应用. 先说系统建设,现在主流的技术是HADOOP,主要基于mapreduce的分布式框架.目前可以先学习这个.但是我的观点,在分布式系统出来之前,主要是集中式架构,如DB2,oracle.为什么现在用分布式架构,那是因为现在集中式架构受限于IO性能,出来速度慢,如果又一种硬件技术,可以很快地处理海量数据,性能上能满足需求,那么集中式架构优于分布式架构,因为集中式架构稳定,运维压力小.现在的集中式架构要么性能达不到要求,要么就是过于昂贵.我期待一

Hadoop生态系统学习路线

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

好程序员大数据学习路线Hadoop学习干货分享

好程序员大数据学习路线Hadoop学习干货分享,Apache Hadoop 为可靠的,可扩展的分布式计算开发开源软件.Apache Hadoop软件库是一个框架,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集(海量的数据).包括这些模块: Hadoop Common:支持其他Hadoop模块的常用工具. Hadoop分布式文件系统(HDFS?):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问. Hadoop YARN:作业调度和集群资源管理的框架. Hadoop MapRedu

好程序员大数据学习路线分享Hadoop阶段的高可用配置

大数据学习路线分享Hadoop阶段的高可用配置,什么是Hadoop的HA机制 Ha机制即Hadoop的高可用(7*24小时不中断服务) 正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制 hadoop-ha严格来说应该分成各个组件的HA机制--HDFS的HA.YARN的HA HDFS的HA机制详解HDFS 的HA主要是通过双namenode协调工作实现 双namenode协调工作的要点:A.元数据管理方式需要改变: 内存中各自保存一份元数据 Edits日志只能有一份,只有Act

java学习路线及资源下载,持续整理中

java学习路线及资源下载,持续整理中 学习路线图:http://blog.csdn.net/shenzhq1980/article/details/484703371.java学习经典书籍_基础编程篇下载地址:http://blog.csdn.net/shenzhq1980/article/details/48375543书籍:Java程序设计语言.(美国)阿诺德.清晰版JAVA2核心技术第1卷.基础知识7thJAVA2核心技术卷II:高级特性7th Java语言程序设计-基础篇(原书第8版)

Hadoop学习之路(一)——Hadoop家族学习路线图

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop学习路线图

Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Ha