hadoop2.0初识1.0

1.给普通用户设置sudo权限

  编辑:[[email protected] /]# nano /etc/sudoers

  在文件头部加入:yanglin ALL=(root)NOPASSWD:ALL 保存退出接口

  

2.配置主机映射

  1.修改主机名称 /etc/sysconfig/network

    

  2.在/etc/hosts下添加映射

    [[email protected] /]$ nano /etc/hosts

    192.168.0.193   life-hadoop.life.com    life-hadoop

    

  3.用管理员身份修改C:\windows\System32\drivers\etc\hosts 添加

    192.168.0.193    life-hadoop.life.com

3.配置jdk

  1.使用[[email protected] modules]# rpm -qa|grep java  查找默认安装的jdk

  2.使用[[email protected] modules]# rpm -e --nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-    1.7.0.9-2.3.4.1.el6_3.x86_64  删除默认安装的jdk

  3.使用[[email protected] softwares]$ tar -zxf jdk-7u67-linux-x64.tar.gz -C /opt/modules/ 将jdk解压到/opt/modules目录下

  4.使用[[email protected] softwares]$ sudo nano /etc/profile 尾部添加

    export JAVA_HOME=/opt/modules/jdk1.7.0_67
    export PATH=$PATH:$JAVA_HOME/bin

  5.[[email protected] softwares]$ source /etc/profile
    [[email protected] softwares]$ echo $JAVA_HOME
    /opt/modules/jdk1.7.0_67/bin

4.搭建hadoop伪分布式

  1.使用[[email protected] softwares]$ tar -zxf hadoop-2.5.0.tar.gz -C /opt/modules/ 将hadoop解压到/opt/modules目录下

  2.在hadoop的根目录下创建input目录 ,并将etc/hadoop/目录下所有的xml文件复制到input目录下

    [[email protected] hadoop-2.5.0]$ mkdir input

    [[email protected] hadoop-2.5.0]$ cp etc/hadoop/*.xml input

  3.运行

    [[email protected] hadoop-2.5.0]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar grep input output ‘dfs[a-z.]+‘

    如果出现一下信息表示配置hadoop成功

      

    1.运行wordcount案例

      创建wcinput目录,并在该目录中创建wc.input文件,在该文件中输入一下内容

        hadoop yarn
        hadoop mapreduce
        hadoop hdfs
        yarn nodemanager
        hadoop resourcemanager

      使用命令

        [[email protected] hadoop-2.5.0]$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount wcinput wcoutput

      可以统计出给目录下各个单词出现个次数

         

        

        

      

    

    

时间: 2024-10-17 14:17:36

hadoop2.0初识1.0的相关文章

hadoop-2.0.0-cdh4.6.0 安装

1.创建hadoop用户[所有操作都是root,在所有master和slaver上]1).创建hadoop用户:adduser hadoop2).更换密码:passwd hadoop====================================================================================2.安装jdk[所有操作都是root,在所有master和slaver上]将jdk.tar.gz解压到/et/local/:tar –zxvf jdk

Cloudera hadoop-2.3.0-cdh5.1.0 在Centos 6.5 下的安装

安装前准备 1.  虚拟机3个,安装Centos 6.5, 内存设置为4GB 2.  配置yum源为163(不配置,在安装软件时,慢的要死) 3. 关闭防火墙( iptables),disabled SELinux 4. 配置静态IP,并在/etc/hosts中将Hadoop集群中的主机名加进去 安装 1. 在Cloudera官网上下载 cloudera-manager-installer.bin 2. 直接运行 cloudera-manager-installer.bin 3. 通过安装好的c

计算机网络 0.初识Internet与TCP/IP协议

互联网,即因特网,Internet.互联网是一个世界范围的计算机网络.连接了世界上无数的计算设备,这些计算设备为PC,基于Linux的工作站,服务器servers等等.这些设备根据其作用不同可以被称为主机host或者端系统end system. 端系统通过通信链路communication link和分组交换机packet switch连接到一起.发送数据时,发送端系统将数据分段,并为每段加上首部字节.这样的形成的信息包称为分组packet.分组到达目标端系统后,被装配成初始数据.分组交换机从它

kettle6.1 连接hadoop2.6.0-CDH5.5.0

kettle6.1 连接hadoop2.6.0-CDH5.5.0 参考官网链接:http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version 1,hadoop version 查看版本信息 ,如下图 2,去官网验证版本是否支持,如下图 3,获取链接信息,即你需要连接的hdfs或者hive的信息(此处我只考虑hdfs和hive) 链接信息,自己确认. 遇到的问题: kettle连

Hadoop2.6.0 + Spark1.4.0 在Ubuntu14.10环境下的伪分布式集群的搭建(实践可用)

前言,之前曾多次搭建集群,由于疏于记录,每次搭建的时候到处翻阅博客,很是费劲,在此特别记录集群的搭建过程. 0.环境:Ubuntu14.10.Hadoop2.6.0.spark-1.4.0 1.安装jdk1.7 (1)下载jdk-7u25-linux-i586.tar.gz: (2)解压jdk-7u25-linux-i586.tar.gz,并将其移动到 /opt/java/jdk/路径下面 (3)配置java环境变量: 在 /etc/profile文件中追加 #set java env expo

在Win7虚拟机下搭建Hadoop2.6.0+Spark1.4.0单机环境

Hadoop的安装和配置可以参考我之前的文章:在Win7虚拟机下搭建Hadoop2.6.0伪分布式环境. 本篇介绍如何在Hadoop2.6.0基础上搭建spark1.4.0单机环境. 1. 软件准备 scala-2.11.7.tgz spark-1.4.0-bin-hadoop2.6.tgz 都可以从官网下载. 2. scala安装和配置 scala-2.11.7.tgz解压缩即可.我解压缩到目录/home/vm/tools/scala,之后配置~/.bash_profile环境变量. #sca

spark cdh5编译安装[spark-1.0.2 hadoop2.3.0 cdh5.1.0]

前提你得安装有Hadoop 我的版本hadoop2.3-cdh5.1.0 1.下载maven包 2.配置M2_HOME环境变量,配置maven 的bin目录到path路径 3.export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m" 4.到官方下载spark-1.0.2.gz压缩包.解压 5.进入spark解压包目录 6.执行./make-distribution.sh --hadoop

apache sqoop1.99.3+hadoop2.5.2+mysql5.0.7环境构筑以及数据导入导出

概要 为了调查hadoop生态圈里的制品,特地的了解了一下RDBMS和hdfs之间数据的导入和导出工具,并且调查了一些其他同类的产品,得出来的结论是:都是基于sqoop做的二次开发或者说是webUI包装,实质还是用的sqoop.比如pentaho的PDI,Oracle的ODI,都是基于此,另外,Hortnetwork公司的sandbox,Hue公司的Hue webUI,coulder的coulder manger,做个就更不错了,差不多hadoop下的制品都集成了,部署也不是很复杂,还是很强大的

hadoop-2.3.0-cdh5.1.0完全分布式搭建(基于centos)

先参考:<hadoop-2.3.0-cdh5.1.0伪分布安装(基于centos)> http://blog.csdn.net/jameshadoop/article/details/39055493 注:本例使用root用户搭建 一.环境 操作系统:CentOS 6.5 64位操作系统  注:Hadoop2.0以上采用的是jdk环境是1.7,Linux自带的jdk卸载掉,重新安装 下载地址:http://www.oracle.com/technetwork/java/javase/downl