大数据-hadoop学习记录

hadoop 创始人 DogCutting

  高效,可扩展性,高容错性,价格低廉的大数据软件处理架构

  主要应用于数据分析、数据实时查询、数据挖掘领域

HDFS(HadoopDistributeFileSystem 分布式文件系统)

总结:从字面意思我们可以简单理解为:hadoop是用来处理大数据的,HDFS是用来存储大数据的。

-*-hadoop项目结构-*-

MapReduce 主要用于离线计算

Tez (DAG计算)基于YAN之上生成无向循环图,优化计算

Spark 和Mapreduce相似在内存中进行运算,性能高

HIve hadoop上的数据仓库(可用于企业数据分析),会把SQL语句转化为MapReduce运行

Pig 一个基于Hadoop的大规模数据分析平台,提供类似SQL的查询语言PigLatin

Oozie 工作流调度工具

Zookeeper 分布式调度服务

Hbase Hadoop上的非关系型分布式数据库(分布式列数据库)

flume  流数据日志收集分析

Sqoop 在hadoop和传统平台之间互导数据

Ambari 安装部署工具

原文地址:https://www.cnblogs.com/brownz/p/8476364.html

时间: 2024-10-02 23:36:54

大数据-hadoop学习记录的相关文章

大数据Hadoop学习之快速入门方法

1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效.可伸缩的特点 Hadoop的核心是YARN,HDFS,Mapreduce,常用模块架构如下 ? 我还是要推荐下我自己创建的大数据资料分享群142973723,这是大数据学习交流的地方,不管你是小白还是大牛,小编都欢迎,不定期分享干货,包括我整理的一份适合零基础学习大数据资料和入门教程. 2.HDF

究竟多大才算是大数据,大数据怎么学习?

大数据,什么是大数据呢?多大的数据叫大数据?红火一时的数据分析走向了我们,纷纷称不分析数据企业将长久不了,可是究竟什么样的数据才是大数据呢,什么样的数据才是最大的呢? 如果你没有接触过大数据,那么你就不知道大数据究竟有多大,大到什么样的数据才能称之为大数据.那么,根据数据收集的端口,企业端与个人端之间,大数据的数量级别是不同的. 大数据开发学习有一定难度,零基础入门首先要学习Java语言打基础,一般而言,Java学习SE.EE,需要约3个月的时间:然后进入大数据技术体系的学习,主要学习Hadoo

王家林的云计算分布式大数据Hadoop企业级开发动手实践

一:课程简介: Hadoop是云计算分布式大数据的事实标准软件框架,Hadoop中的架构实现是整个云计算产业技术的基础,作为与Google三大核心技术DFS.MapReduce.BigTable相对的HDFS.MapReduce.和HBase也是整个Hadoop生态系统的核心的技术,本课程致力于帮您掌握这三大技术的同时掌握云计算的数据仓库挖掘技术Hive,助您在云计算技术时代自由翱翔. 二:课程特色 1,      深入浅出中动手实作: 2,      掌握Hadoop三大核心:HDFS.Map

大数据Hadoop最佳实践(V3)

一:课程简介: Hadoop是当下云计算大数据的王者. Hadoop不仅是一个大数据的计算框架,同时也是大数据的存储平台. 使用Hadoop,用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择 使用Hadoop可以主要完成: 1,构建离线处理平台,完成海量离线数据的存储分析,相对于传统的关系型数据

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维

大数据云计算学习路线图(纯属个人看法和观点)

[ps:以下纯属个人观点和看法,有什么不对的,还请多多指教.] 1:之前发过一个Java攻城狮的学习路线图[ps:挺详细的~~~]:http://www.cnblogs.com/biehongli/p/5754555.html 恰恰是这个Java攻城狮学习路线图使我在学习编程的路上看到了希望,使迷茫的我找到了方向.现在还为此在努力...... 2:而今天呢,结合一些培训机构的学习路线图,今天发一个大数据云计算的学习路线图,也许有的人心中会有些疑问说这货是骗浏览量,点击量的吧,可是原因不是这样的哦

大数据最佳学习路线总结

一,题记 要说当下IT行业什么最火?ABC无出其右.所谓ABC者,AI + Big Data + Cloud也,即人工智能.大数据和云计算(云平台).每个领域目前都有行业领袖在引领前行,今天我们来讨论下大数据Big Data这个方向. 二,大数据里面的角色 角色一:大数据工程 大数据工程需要解决数据的定义.收集.计算与保存的工作,因此大数据工程师们在设计和部署这样的系统时首要考虑的是数据高可用的问题,即大数据工程系统需要实时地为下游业务系统或分析系统提供数据服务: 角色二:大数据分析 大数据分析

大数据入门学习路线分享,请大家收下

大数据的学习技术点Hadoop核心(1) 分布式存储基石:HDFSHDFS简介 入门演示 构成及工作原理解析:数据块,NameNode, DataNode.数据写入与读取过程.数据复制.HA方案.文件类型. HDFS常用设置 Java API代码演示(2) 分布式计算基础:MapReduceMapReduce简介.编程模型.Java API 介绍.编程案例介绍.MapReduce调优(3) Hadoop集群资源管家:YARNYARN基本架构 资源调度过程 调度算法 YARN上的计算框架离线计算(

大数据好学习吗?如何快速掌握大数据开发技能

大数据好学习吗?如何快速掌握大数据开发技能?经常被学员问到:大数据好学吗?想学大数据怕学不会等问题.我想说的是,大数据在当下是个非常热门的话题,大数据在深刻的影响着这个世界,在促进传统行业升级改造.引领新兴产业和新兴应用蓬勃发展.提升社会运行和管理效率等方面,大数据正引发新一轮革命.大数据是时代潮流,如果学一下就会了,那大数据行业现在恐怕已经被挤破门槛了吧,想学大数据还是得下苦功夫才行. 想学大数据,先把这几个技能学会再说: Apache Hive2.1 Hive是建立在Hadoop上的数据仓库