hadoop深入了解(二)

一、hadoop安装

1.设置静态ip,在windows下查看虚拟机ip,同事更改centos的网络链接为host-only模式,更改Addresscip ,netmask.gateway.

执行#service network restart

验证#ipconfig

2.用工具pietty,简历远程登录,修改主机名,#hostname 主机名。然后#vi /etc/sysconfig/network永久更改主机名

#vi etc/hosts 更改主机名和ip绑定。

3.关闭防火墙,#service iptables stop

关闭自启功能 #chkconfig iptables off

或者用setup关闭服务、

4.查看服务列表#chkconfig --list |grep iptables

5.ssh服务,免密码登陆。像其他的服务,例如FTP,POP,telnet一样都是c/s模型,但是更安全。

进入。ssh目录下

产生公钥和私钥 #ssh-keygen -t rsa

复制公钥到# cp gongyao authorized_keys

验证 #ssh localhost

6.文件传输工具winscp。把jdk和hadoop上传至usr/local下

ls -l查看权限,不够增加权限#chkconfig u+x 文件名。

7./解压jdk文件,是指环境变量# vi /etc/profile

#service /etc/profile立即生效

java_version查看

tar -zxvf hadoop

vi /etc/profile

修改四个配置文件

格式化hadoop namenode -format

jps查看进程50070和50030

HDFS命令

1、hadoop fs -ls  hadoop fs -lsr

2、hadoop  fs -pu t       -get    -rm  -rmr   text cat

本质hadoop fs 相当于hdfs://hadoop0:90001

3.在core_defaual.xml中设置block大小,默认64MB

dfs.data.dir中是datanode中的数据位置

时间: 2024-10-07 11:28:01

hadoop深入了解(二)的相关文章

分布式Hadoop安装(二)

二.集群环境安装Zookeeper 1.         hadoop0,namenode机器下,配置zookeeper,先解压安装包. 使用命令:tar -zxvf zookeeper-3.4.4.tar.gz 2.         Hadoop0,配置zookeeper的环境变量 a)         打开/etc/profile,增加并修改如下内容 export ZOOKEEPER_HOME=/usr/local/zookeeper export PATH=.:$HADOOP_HOME/b

hadoop学习笔记(二)

hadoop学习笔记(二) 我的个人博客站点地址:孙星的个人博客主页 后续的学习笔记:hadoop学习笔记 hadoop单节点的搭建 下载hadoop: wget http://apache.fayea.com/hadoop/common/hadoop-2.7.1/hadoop-2.7.1.tar.gz tar -zxvf hadoop-2.7.1.tar.gz 解压配置免密码登陆: //生成秘钥 ssh-keygen -t rsa //一直回车,在当前目录中会出现2个文件,一个是公钥,一个是私

Hadoop 系列(二)安装配置

Hadoop 系列(二)安装配置 Hadoop 官网:http://hadoop.apache.or 一.Hadoop 安装 1.1 Hadoop 依赖的组件 JDK :从 Oracle 官网下载,设置环境变量(JAVA_HOME.PATH 和 CLASSPATH). SSH(安全外壳标议) :推荐安装 Openssh. Hadoop 需要通过 SSH 来启动 Slave 列表中各台主机的守护进程,因此 SSH 也是必须安装的,即使是安装伪分布式版本(因为 Hadoop 并没有区分开集群式和伪分

结合手机上网流量业务来说明Hadoop中的二次排序机制,分区机制

本篇博客将结合手机上网流量业务来详细介绍Hadoop的二次排序机制.分区机制,先介绍一下业务场景: 先介绍一下业务场景:统计每个用户的上行流量和,下行流量和,以及总流量和. 本次描述所用数据: 日志格式描述: 日志flowdata.txt中的具体数据: 首先我们先通过mapreduce程序实现上面的业务逻辑: 代码实现: package FlowSum; import java.io.DataInput; import java.io.DataOutput; import java.io.IOE

Hadoop 学习笔记二 --- 计算模型MapReduce

       MapReduce 是一个计算模型,也是一个处理和生成超大数据集的算法模型的相关实现.用户首先创建一个Map函数处理一个基于Key/Value pair 的数据集合,输出中间的基于Key/Value pair的数据集合,然后再创建一个Reduce 函数用来合并所有的具有相同中间Key值的中间Value值.其最主要的两个部分就是Map过程和Reduce过程. 一. Map 处理过程 1. Mapper 类的处理原理        Mapper 类的最主要的功能就是将输入的Key/Va

Hadoop实战之二~ hadoop作业调度详解(1)

前言 对Hadoop的最感兴趣的地方,也就在于Hadoop的作业调度了,在正式介绍如何搭建Hadoop之前,深入理解一下Hadoop的作业调度很有必要.我们不一定能用得上Hadoop,但是如果理通顺Hadoop的分布式调度原理,在有需要的时候未必不能自己写一个Mini Hadoop~: ) 开始 本文转载自:http://www.cnblogs.com/shipengzhi/articles/2487429.html Map/Reduce是一个用于大规模数据处理的分布式计算模型,它最初是由Goo

Hadoop随笔(二):Hadoop V1到Hadoop V2的主要变化

一.消失的概念与新鲜的名词 Hadoop V2相对于Hadoop V1的变化主要在于资源管理和任务调度,计算模型仍然保持map/reduce的模型.资源管理和任务调度的变化导致了工作流程的变化,一些概念消失而一些概念又出现. 1.JobTrack与TaskTrack JobTrack和TaskTrack在Hadoop旧版本(Hadoop0.x及Hadoop1.x)中是非常重要的概念.JobTrack对系统中的所有Job进行统一的管理,同时为Job分配相应的TaskTrack,还需要与所有的Tas

大数据之Hadoop平台(二)Centos6.5(64bit)Hadoop2.5.1伪分布式安装记录,wordcount运行测试

注意:以下安装步骤在Centos6.5操作系统中进行,安装步骤同样适于其他操作系统,如有同学使用Ubuntu等其他Linux操作系统,只需注意个别命令略有不同. 注意一下不同用户权限的操作,比如关闭防火墙,需要用root权限. 单节点的hadoop安装出现的问题会在如下几个方面:JDK环境的配置.防火墙是否关闭.root用户和hadoop用户的不同操作等. 在搭建的过程中细心一点,按照下面的步骤做,基本不会有什么问题的. 一.准备工作(root用户) 1.关闭防火墙 关闭防火墙:service

Hadoop 系列(二)—— 集群资源管理器 YARN

一.hadoop yarn 简介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集群资源管理系统.用户可以将各种服务框架部署在 YARN 上,由 YARN 进行统一地管理和资源分配. <div align="center"> <img width="600px" src="https://raw.githubusercontent.com/heibaiying/

Hadoop 实践(二) Mapreduce 编程

Mapreduce 编程,本文以WordCount  为例:实现文件字符统计 在eclipse 里面搭建一个java项目,引入hadoop lib目录下的jar,和 hadoop主目录下的jar. 新建WordCount 类: package org.scf.wordcount; import java.io.IOException; import java.util.*; import org.apache.hadoop.fs.Path; import org.apache.hadoop.co