Tachyon基本使用08-----Running Hadoop MapReduce on Tachyon

一、修改Hadoop配置文件

1.修改core-site.xml文件

添加如下属性，让MapReduce作业可以使用Tachyon文件系统作为输入和输出

<property>
 <name>fs.tachyon.impl</name>
 <value>tachyon.hadoop.TFS</value>
</property>

2.配置hadoop-env.sh

在hadoop-env.sh文件开头添加Tachyon客户端jar包路径的环境变量。

export HADOOP_CLASSPATH=/usr/local/tachyon/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar

3.将修改后的配置文件同步到其它节点

[[email protected] hadoop]# scp hadoop-env.shnode2:/usr/local/hadoop/etc/hadoop/
hadoop-env.sh                                                                                                                        100%3499     3.4KB/s   00:00   
[[email protected] hadoop]# scp hadoop-env.shnode3:/usr/local/hadoop/etc/hadoop/
hadoop-env.sh                                                                                                                        100%3499     3.4KB/s   00:00   
[[email protected] hadoop]# scp core-site.xmlnode2:/usr/local/hadoop/etc/hadoop/
core-site.xml                                                                                                                        100% 1421     1.4KB/s   00:00   
[[email protected] hadoop]# scp core-site.xmlnode3:/usr/local/hadoop/etc/hadoop/
core-site.xml                                                                                                                        100% 1421     1.4KB/s   00:00   
[[email protected] hadoop]#

4.启动所有的zookeeper节点

[[email protected] hadoop]# zkServer.sh start
JMX enabled by default
Using config:
/usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[[email protected] hadoop]# ssh node2 zkServer.sh
start
JMX enabled by default
Using config:
/usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[[email protected] hadoop]# ssh node3 zkServer.sh
start
JMX enabled by default
Using config:
/usr/local/zookeeper/bin/../conf/zoo.cfg
Starting zookeeper ... STARTED
[[email protected] hadoop]#

5.启动hadoop集群

[[email protected] hadoop]# pwd
/usr/local/hadoop
[[email protected] hadoop]# sbin/start-all.sh

6.启动Tachyon集群

[[email protected] hadoop]# tachyon-start.sh all Mount

7.启动node2上的Tachyon Master

[[email protected] ~]# tachyon-start.sh master
Starting master @ node2
[[email protected] ~]#

8.查看进程

[[email protected] conf]# jps
21954 QuorumPeerMain
22398 JournalNode
24120 TachyonWorker
22765 NodeManager
22572 DFSZKFailoverController
22663 ResourceManager
24009 TachyonMaster
24354 Jps
22216 DataNode
22115 NameNode
[[email protected] conf]# ssh node2 jps
15524 NameNode
16538 TachyonWorker
15880 NodeManager
15802 DFSZKFailoverController
16650 Jps
15592 DataNode
15456 QuorumPeerMain
15683 JournalNode
16598 TachyonMaster
[[email protected] conf]# ssh node3 jps
9294 DataNode
9231 QuorumPeerMain
9382 JournalNode
10050 Jps
10007 TachyonWorker
9476 NodeManager
[[email protected] conf]#

二、测试Mapreduce作业

1.上传测试文件到Tachyon

[[email protected] conf]# tachyon tfs copyFromLocal /etc/passwd /passwd
Copied /etc/passwd to /passwd
[[email protected] conf]# tachyon tfs tail /passwd
tp:/sbin/nologin
nobody:x:99:99:Nobody:/:/sbin/nologin

2.执行Mapreduce作业

[[email protected] hadoop]# pwd
/usr/local/hadoop
[[email protected] hadoop]# hadoop jar
share/hadoop/mapreduce/hadoop-mapreduce-examples-2.2.0.jar wordcount -libjars
/usr/local/tachyon/client/target/tachyon-client-0.5.0-jar-with-dependencies.jar
tachyon://node1:19998/passwd tachyon://node1:19998/out

3.查看执行完成后的输出结果

[[email protected] hadoop]# tachyon tfs cat/out/part-r-00000
Daemon:/var/cache/rpcbind:/sbin/nologin     1
Daemon:/var/run/pulse:/sbin/nologin    1
IPv4LL       1
NFS  1
SSH:/var/empty/sshd:/sbin/nologin         1
Service     1
Stack:/var/lib/avahi-autoipd:/sbin/nologin      1
System     1
User:/var/ftp:/sbin/nologin     1
User:/var/lib/nfs:/sbin/nologin        2

时间： 2024-07-30 15:09:44

Tachyon基本使用08-----Running Hadoop MapReduce on Tachyon的相关文章

solution:No job file jar和ClassNotFoundException(hadoop,mapreduce)

hadoop-1.2.1伪分布式搭建好了,也只是用命令跑过hadoop-example.jar包的wordcount,这一切看起来so easy. 但没想到的是,自己的mr程序,运行起来却遇到了No job file jar和ClassNotFoundException的问题. 经过一番周折,自己写的mapreduce 终于成功运行了. 我没有将第三方jar包(hadoop-core,commons-cli,commons-xxx等6个jar包)和自己的代码的jar包全部都添加到远程集群上,在本

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster

Hadoop MapReduce Next Generation - Setting up a Single Node Cluster. Purpose This document describes how to set up and configure a single-node Hadoop installation so that you can quickly perform simple operations using Hadoop MapReduce and the Hadoop

使用Python实现Hadoop MapReduce程序

转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python 根据上面两篇文章,下面是我在自己的ubuntu上的运行过程.文字基本采用博文使用Python实现Hadoop MapReduce程序, 打字很浪费时间滴. 在这个实例中,我将会向大家介绍如何使用Python 为 Hadoop编写一个简单的MapReduce程序. 尽管Hadoop 框架是使用Java编写的但是我们仍然需要使用像C+

[Hadoop] - Hadoop Mapreduce Error: GC overhead limit exceeded

在运行mapreduce的时候,出现Error: GC overhead limit exceeded,查看log日志,发现异常信息为 2015-12-11 11:48:44,716 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at java.io.DataInputStream.readU

Hadoop MapReduce执行过程详解（带hadoop例子）

https://my.oschina.net/itblog/blog/275294 摘要: 本文通过一个例子,详细介绍Hadoop 的 MapReduce过程. 分析MapReduce执行过程 MapReduce运行的时候,会通过Mapper运行的任务读取HDFS中的数据文件,然后调用自己的方法,处理数据,最后输出.Reducer任务会接收Mapper任务输出的数据,作为自己的输入数据,调用自己的方法,最后输出到HDFS的文件中.整个流程如图: Mapper任务的执行过程详解每个Mapper任

Hadoop MapReduce编程 API入门系列之倒排索引（二十四）

不多说,直接上代码. 2016-12-12 21:54:04,509 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-12-12 21:54:05,166 WARN [org.apache.hadoop.mapreduce.JobSubmitter] - Hadoop command-line option

Hadoop MapReduce编程 API入门系列之二次排序

不多说,直接上代码. 2016-12-12 17:04:32,012 INFO [org.apache.hadoop.metrics.jvm.JvmMetrics] - Initializing JVM Metrics with processName=JobTracker, sessionId=2016-12-12 17:04:33,056 WARN [org.apache.hadoop.mapreduce.JobSubmitter] - Hadoop command-line option

Hadoop - MapReduce MRAppMaster-剖析

一概述 MRv1主要由编程模型(MapReduce API).资源管理与作业控制块(由JobTracker和TaskTracker组成)和数据处理引擎(由MapTask和ReduceTask组成)三部分组成.而YARN出现之后,资源管理模块则交由YARN实现,这样为了让MapReduce框架运行在YARN上,仅需要一个ApplicationMaster组件完成作业控制模块功能即可,其它部分,包括编程模型和数据处理引擎等,可直接采用MRv1原有的部分. 二 MRAppMaster组成 MRApp

hadoop mapreduce 基础实例一记词

mapreduce实现一个简单的单词计数的功能. 一,准备工作:eclipse 安装hadoop 插件: 下载相关版本的hadoop-eclipse-plugin-2.2.0.jar到eclipse/plugins下. 二,实现: 新建mapreduce project map 用于分词,reduce计数. package tank.demo; import java.io.IOException; import java.util.StringTokenizer; import org.apa