hadoop学习笔记(二)

hadoop学习笔记(二)

我的个人博客站点地址:孙星的个人博客主页

后续的学习笔记:hadoop学习笔记

hadoop单节点的搭建

下载hadoop:

wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz
tar -zxvf hadoop-2.7.1.tar.gz

解压配置免密码登陆:

//生成秘钥
ssh-keygen -t rsa

//一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私钥
id_rsa:         私钥
id_rsa.pub:     公钥

//创建认证文件
cat id_rsa.pub >> authorized_keys

配置hosts

主要是修改其中的hostname和对应的ip,修改如下:

配置相应的配置文件

进入到hadoop的解压目录中,其中etc/hadoop目录是配置目录,进入到目录中可以看到:

其中主要配置的是环境变量(hadoop-env.sh)和core-site.xml,hdfs-site.xml,mapred.site.xml以及yarn-site.xml则五个文件,相关的配置如下:

hadoop-env.sh:

core-site.xml:

hdfs-site.xml:

mapred-site.xml:

yarn-site.sh:

运行hadoop

配置好以后,需要先格式化一下,格式的命令如下:

hadoop namenode -format

格式化NameNode的动作,主要做了一下一下内容:

* 如果dfs.namenode.name.dir对应的文件夹目录不存在,则创建一个目录,并初始化fsimage,和edits并且写入一些初始值,这个动作在文件系统中一样,格式化主要是清空重置。
* 如果对应的目录地址的数据已经存在了,则删除相应的,目录下的文件,在重新建立

格式完hadoop以后就可以启动hadoop了,启动的命令如下:

cd /usr/loca/share/hadoop2.7.1

./sbin/start-all.sh

启动过后的进程数据如下:

hadoop的wordcount的程序的开发

代码结构如下:

自定义mapper类代码如下:

自定义reducer类代码如下:

wordcount程序的数据源:

wordcount程序的执行过程:

wordcount程序的结果展示:

时间: 2024-10-10 11:29:35

hadoop学习笔记(二)的相关文章

Hadoop-HBASE案例分析-Hadoop学习笔记<二>

之前有幸在MOOC学院抽中小象学院hadoop体验课. 这是小象学院hadoop2.X概述第八章的笔记 主要介绍HBase,一个分布式数据库的应用案例. 案例概况: 1)时间序列数据库(OpenTSDB) 用HBase储存时间序列数据,每时每刻都在解决,数据库为开源 2)HBase爬虫调度库 垂直搜索爬虫 大规模爬虫(全网爬虫) 这里界定URL爬虫调度 3)HBase文档库 储存文档数据库,偏重于储存 4)银行人民币查询系统 不在博客园上阅读时才会看到的,这篇博文归http://www.cnbl

Hadoop 学习笔记二 --- 计算模型MapReduce

       MapReduce 是一个计算模型,也是一个处理和生成超大数据集的算法模型的相关实现.用户首先创建一个Map函数处理一个基于Key/Value pair 的数据集合,输出中间的基于Key/Value pair的数据集合,然后再创建一个Reduce 函数用来合并所有的具有相同中间Key值的中间Value值.其最主要的两个部分就是Map过程和Reduce过程. 一. Map 处理过程 1. Mapper 类的处理原理        Mapper 类的最主要的功能就是将输入的Key/Va

hadoop学习笔记(二)——hadoop思想简介

这几天阅读<hadoop实战>,初步了解了一下hadoop的核心思想,简要的比较如下: 1.  hadoop是一个开源框架,可编写和运行分布式应用处理大数据,具有方便.简单.健壮性.可扩展性等优点 2.  MapReduce程序的执行分为两个阶段,为mapping和reducing.每个阶段均定义为数据处理函数,分别被称为mapper和reducer.在mapping阶段,MapReduce获取输入数据并将数据单元装入mapper:在reducing阶段,reducer处理来自mapper的所

Hadoop学习笔记(二)——zookeeper使用和分析

分布式架构是中心化的设计,就是一个主控机连接多个处理节点,因此保证主控机高可用性十分关键.分布式锁是解决该问题的较好方案,多主控机抢一把锁.Zookeeper就是一套分布式锁管理系统,用于高可靠的维护元数据. 一.应用 1.集群模式 集群模式下配置多个Zookeeper节点,启动Zookeeper集群,Zookeeper会根据配置投票选举一个节点获得分布式锁. 关键配置举例: # The Cluster servers #server.1=192.168.1.10:2887:3887 #serv

Hadoop学习笔记(二)设置单节点集群

本文描述如何设置一个单一节点的 Hadoop 安装,以便您可以快速执行简单的操作,使用 Hadoop MapReduce 和 Hadoop 分布式文件系统 (HDFS). 参考官方文档:Hadoop MapReduce Next Generation - Setting up a Single Node Cluster. Hadoop版本:Apache Hadoop 2.5.1 系统版本:CentOS 6.5,内核(uname -r):2.6.32-431.el6.x86_64 系统必备组件 支

JavaScript--基于对象的脚本语言学习笔记(二)

第二部分:DOM编程 1.文档象模型(DOM)提供了访问结构化文档的一种方式,很多语言自己的DOM解析器. DOM解析器就是完成结构化文档和DOM树之间的转换关系. DOM解析器解析结构化文档:将磁盘上的结构化文档转换成内存中的DOM树 从DOM树输出结构化文档:将内存中的DOM树转换成磁盘上的结构化文档 2.DOM模型扩展了HTML元素,为几乎所有的HTML元素都新增了innerHTML属性,该属性代表该元素的"内容",即返回的某个元素的开始标签.结束标签之间的字符串内容(不包含其它

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World

Hadoop学习笔记(4) ——搭建开发环境及编写Hello World 整个Hadoop是基于Java开发的,所以要开发Hadoop相应的程序就得用JAVA.在linux下开发JAVA还数eclipse方便. 下载 进入官网:http://eclipse.org/downloads/. 找到相应的版本进行下载,我这里用的是eclipse-SDK-3.7.1-linux-gtk版本. 解压 下载下来一般是tar.gz文件,运行: $tar -zxvf eclipse-SDK-3.7.1-linu

hadoop 学习笔记:mapreduce框架详解

hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能是我做技术研究的 思路有关,我开始学习某一套技术总是想着这套技术到底能干什么,只有当我真正理解了这套技术解决了什么问题时候,我后续的学习就能逐步的加快,而学习 hdfs时候我就发现,要理解hadoop框架的意义,hdfs和mapreduce是密不

Hadoop学习笔记(2) ——解读Hello World

Hadoop学习笔记(2) ——解读Hello World 上一章中,我们把hadoop下载.安装.运行起来,最后还执行了一个Hello world程序,看到了结果.现在我们就来解读一下这个Hello Word. OK,我们先来看一下当时在命令行里输入的内容: $mkdir input $cd input $echo "hello world">test1.txt $echo "hello hadoop">test2.txt $cd .. $bin/ha