我的Hadoop学习(1)

大数据(BigData):大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

Hadoop是根据谷歌的论文开发出来的分布式系统基础架构。(图片取自课工场视频的截图)

BigTable是Google设计的分布式数据存储系统,用来处理海量的数据的一种非关系型的数据库。(数据库)

GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。(存储系统)

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"(计算)

大数据带来的革命性变革
1)成本降低,能用PC机,就不会大型机或者高端存储设备。
2)软件容错、硬件故障视为常态,通过软件来保证高可靠。
3)简化分布式并行计算,无需控制节点同步和数据的交换。

Hadoop是什么:

Hadoop框架的三大部分:

Hadoop的生态圈:

Hive:提供了sql查询功能

R语言:一种统计性语言

Mahout:机器学习库(已停止更新) 现在大家都使用Spark。

pig:用于写脚本统计数据。

Oozie:工作流(通常在多个场景中相互配合使用)

zookeeper:分布式的协调性服务。

Flume:用于日志文件的收集。

Sqoop:描述数据的交换,关系型数据库和大数据系统进行交换。

Hbase:建立在HFDS上的面向列的数据库,用于快速读写大量数据,由zookeeper进行管理。

Hadoop的版本选择:

对于Apache的顶级项目,网站有一定的规则
hadoop: hadoop.apache.org
hive: hive.apache.org
spark: spark.apache.org
hbase
zookeeper

CDH下载地址:http://archive.cloudera.com/cdh5/cdh/5/
cdh5.7.0

CM: 通过web就能够快速的搭建集群

================================================================================================================================

写在后面的话:

  这篇博客是我第一篇关于学习技术的博客,记录的是我看课工场视频学习的记录,截图取自视频,一些定义取自百度,可能写的不好,并且也没什么自己的理解。我个人写博客的原因是朋友的建议,因为

在培训班培训了6个多月只会写SSM框架,现在找工作很难,面试官的要求以我现在的水平根本达不到,现在都要求会spingboot和springcloud,会处理抢购网站的高并发请求,

我觉得我的培训经历很失败,朋友建议我自己照着API文档撸一遍代码,并且写技术博客来记录自己的学习,我自己希望能通过自己的学习达到用人单位的要求,找到一份合适的工作,

在博客里面如果有大佬觉得写的有问题的话请指出来,我来修改;如果有像我一样想要转行的小白,希望我们能共勉,一起努力学习,早日找到满意的工作。最后希望看到这篇博客的读者如果

发现有错误的地方能指出来,我在此表示感谢。(培训班不要报某鸟,我觉得我进天坑了~。~)

原文地址:https://www.cnblogs.com/chuxuedejuzi/p/10901636.html

时间: 2024-10-30 06:00:57

我的Hadoop学习(1)的相关文章

Hadoop学习笔记(6) ——重新认识Hadoop

Hadoop学习笔记(6) ——重新认识Hadoop 之前,我们把hadoop从下载包部署到编写了helloworld,看到了结果.现是得开始稍微更深入地了解hadoop了. Hadoop包含了两大功能DFS和MapReduce, DFS可以理解为一个分布式文件系统,存储而已,所以这里暂时就不深入研究了,等后面读了其源码后,再来深入分析. 所以这里主要来研究一下MapReduce. 这样,我们先来看一下MapReduce的思想来源: alert("I'd like some Spaghetti!

Hadoop学习笔记(7) ——高级编程

Hadoop学习笔记(7) ——高级编程 从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2.映射(map):根据输入的<key, value>进生处理, 3.合并(combiner):合并中间相两同的key值. 4.分区(Partition):将<key, value>分成N分,分别送到下一环节. 5.化简(Reduce):将中间结

Hadoop学习笔记(8) ——实战 做个倒排索引

Hadoop学习笔记(8) ——实战 做个倒排索引 倒排索引是文档检索系统中最常用数据结构.根据单词反过来查在文档中出现的频率,而不是根据文档来,所以称倒排索引(Inverted Index).结构如下: 这张索引表中, 每个单词都对应着一系列的出现该单词的文档,权表示该单词在该文档中出现的次数.现在我们假定输入的是以下的文件清单: T1 : hello world hello china T2 : hello hadoop T3 : bye world bye hadoop bye bye 输

Hadoop学习笔记_2_Hadoop源起与体系概述[续]

Hadoop源起与体系概述 Hadoop的源起--Lucene Lucene是Doug Cutting开创的开源软件,用java书写代码,实现与Google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎 早期发布在个人网站和SourceForge,2001年年底成为apache软件基金会jakarta的一个子项目 Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎 对于大数据的

hadoop学习;hadoop伪分布搭建

先前已经做了准备工作安装jdk什么的,下面开始ssh免密码登陆,这里我们用的是PieTTY工具,当然你也可以直接在linux下直接操作 ssh(secure shell),执行命令 ssh-keygen -t rsa产生密钥,位于~/.ssh文件夹中 \ 一路enter 复制为文件authorized_keys 登陆成功和退出 接下来传输jdk和hadoop文件,这里用的工具是WinScp(类似ftp上传工具),有的虚拟机可以设置直接从物理机拖拽,我这放到/root/Downloads下 然后复

Hadoop学习之路(一)——Hadoop家族学习路线图

主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无

Hadoop学习路线图

Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘.开源界及厂商,所有数据软件,无一不向Ha

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclipse方便. 下载 进入官网:http://eclipse.org/downloads/. 找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本. 解压 下载下来一般是tar.gz文件,运行: $tar -zxvf eclipse-SDK-3.7.1-linu

Hadoop学习笔记(5) ——编写HelloWorld(2)

Hadoop学习笔记(5) ——编写HelloWorld(2) 前面我们写了一个Hadoop程序,并让它跑起来了.但想想不对啊,Hadoop不是有两块功能么,DFS和MapReduce.没错,上一节我们写了一个MapReduce的HelloWorld程序,那这一节,我们就也学一学DFS程序的编写. DFS是什么,之前已经了解过,它是一个分布式文件存储系统.不管是远程或本地的文件系统,其实从接口上讲,应该是一至的,不然很难处理.同时在第2节的最后,我们列出了很多一些DFS的操作命令,仔细看一下,这

hadoop 学习笔记:mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的 思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不