Hadoop的简单使用

Hadoop的简单使用

  1. 使用Hadoop提供的命令行,向文件系统中创建一个文件。

    ./hadoop fs -put temp.txt hdfs://localhost:8888/

    说明:

    1. ./hadoop 是bin目录下
    2. fs 表明对文件系统进行操作
    3. -put 就是传输
    4. temp.txt 是我要传输的文件
    5. hdfs://localhost:8888 是hdfs的入口

检测是否成功上传:

http://localhost:50070

然后点击browse the filesystem

可以看到:

一个简单的MapReduce任务

任务说明: 使用Hadoop自动的一个案例,来统计多个文件的的各个单词出现的次数。

步骤如下:

  1. 通过ssh上传一些文件。为了方便,我们最好上传文本文件。从 apache的extra目录下把文件上传到ubuntu下

  2. 将这些文件上传到hadoop的文件系统

    2.1先创建一个目录

    ./hadoop fs -mkdir /task1 【如果要看 hadoop有哪些指令,可以 ./hadoop 如果要看 还可以通过 ./hadoop fs 来看分项的命令】

    1. 将 /home/hsp/test 的所有文件上传到 /task1目录下

    ./hadoop fs -put /home/hsp/test/*.* /task1

    1. 执行一个MapReduce任务,这个是已经写好的,自带的,后面详解,现在体验

    ./bin/hadoop jar hadoop-examples-1.0.3.jar wordcount /task1 /result1

    说明:这个指令一定要在 hadoop的bin目录下执行,因为 hadoop-examples-1.0.3.jar 是在hadoop/bin 目录下的.

    结果:

  1. 验证是否正确

    http://localhost:50030 , [这个就是MapReduce的管理界面]可以看到MapReduce 任务的完成情况

    点击job_201506...可以看到详细情况,如下:

    说明: 这个任务被Map了11个,有一个reduce操作。

    http://localhost:50070 ,点击 part-r-00000 ,就可以看到结果

    both 是5次,我们在ubuntu 直接统计一下

    grep both /home/hsp/test/*.* 可以看到一个5个

    grep both /home/hsp/test/*.*|wc 也可以直接得到结果.

时间: 2024-10-10 20:46:40

Hadoop的简单使用的相关文章

(8)基于hadoop的简单网盘应用实现4

文件结构 (1).index.jsp首页面实现 index.jsp <%@ include file="head.jsp"%> <%@ page language="java" contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> <%@page import="org.apache.hadoop.fs.FileSta

(5)基于hadoop的简单网盘应用实现1

hadoop网盘的最终效果见下面,可以实现简单的文件上传.删除.下载功能,不同用户可以登录到自己的页面进行管理. 一.准备的安装包资源 (1)hadoop1.1.2安装包 (2)bootmetro一个CSS开元框架,用来提高web前端的开发效率 (3)mysql的Jdbc驱动包 (4)上传组件 (5)mysql安装包(我的电脑是x64,x86系统的请下载对应版本即可) 二.搭建hadoop集群环境 教程见(2)虚拟机下hadoop1.1.2集群环境搭建 三.mysql5.6安装和eclipse上

(6)基于hadoop的简单网盘应用实现2

一.调用hadoop api实现文件的上传.下载.删除.创建目录和显示功能 (1)添加必要的hadoop jar包. A.首先将Hadoop1.1.2.tar.gz解压到某一个磁盘下. B.右键选择工程,选择build path...., build configure path: C.将hadoop1.1.2文件夹下的jar包添加进去: 还有lib文件夹下的所有jar包(注意:jasper-compiler-5.5.12.jar和jasper-runtime-5.5.12.jar不要引进,否则

Hadoop RPC简单例子

jdk中已经提供了一个RPC框架-RMI,但是该PRC框架过于重量级并且可控之处比较少,所以Hadoop RPC实现了自定义的PRC框架. 同其他RPC框架一样,Hadoop RPC分为四个部分: (1)序列化层:Clent与Server端通信传递的信息采用了Hadoop里提供的序列化类或自定义的Writable类型: (2)函数调用层:Hadoop RPC通过动态代理以及java反射实现函数调用: (3)网络传输层:Hadoop RPC采用了基于TCP/IP的socket机制: (4)服务器端

结合Hadoop,简单理解SSH

在启动dfs和yarn时,需要多次输入密码,不但启动本机进程还有辅服务器启动那些节点也需要相应密码,主与辅服务器之间是通过SSH连接的,并发送操作指令 一.ssh密码远程登录 1.使用ssh连接另一台centos7系统,现在我是在192.168.36.133服务器上,用户是hjp要连接192.168.36.134服务器并使用134服务器root用户登录 [[email protected] ~]$ ssh [email protected] 第一次登入需要加密,问是否继续,输入yes继续即可,然

hadoop的简单安装部署过程

为了做些实验,所以在自己笔记本电脑上装了个虚拟机,系统为CentOS6.2,JDK1.7,hadoop-1.0.1 为了简单起见,部署伪分布式,即仅有一个节点,这个节点既是Master,也是Slave,既是NameNode,也是DataNode,既是JobTracker,也是TaskTracker. 部署总体说明: 伪分布式部署比较简单,只需要搞定4个配置文件即可,分别是: 1.hadoop-env.sh       //用以指定JDK的位置 2.core-site.xml    //核心配置,

Hadoop RPC简单实例

1.导入Hadoop-Common-2.6.0.jar导入工程,里面的IPC实现RPC需要的文件. 2.服务器端 (1)服务接口 package com.neu.rpc.server; /** * Created by apple on 16/6/26. */ public interface LoginServiceInterface { public static final long versionID = 1L; public String login(String username,

(7)基于hadoop的简单网盘应用实现3

一.login.jsp登陆界面实现 解压bootmetro-master.zip,然后将\bootmetro-master\src\下的assets目录复制到project里. bootmetro下载地址:https://github.com/aozora/bootmetro,使用说明:http://www.guoxiaoming.com/bootmetro/ 创建head.jsp文件.用于将一些药固定引用的css.js文件放到这里.作为公共调用文件. <%@ page language="

关于Hadoop的简单介绍

. 如果想进一步了解Hadoop可以访问http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html