Hadoop集群间数据拷贝

有时候，我们需要做Hadoop集群迁移时，要把大量存储在Hadoop集群上的数据也一并迁移过去。有2种方法可以使用：

1. old hadoop cluster--->old local disks---->transmission---->new local disks----->new hadoop cluster

2. old hadoop cluster---->mapreduce--->new hadoop cluster

很显然第一种方法很不靠谱，我们采用第二种方式来做。我们使用的Hadoop提供的distcp来完成集群间的数据拷贝。

1. 配置

说明：只需要在目标（Destination）集群上做如下配置就好了

NameNode:

hdfs-site.xml，加入

<name>dfs.http.address</name>

</property>

<name>dfs.datanode.address</name>

</property>

mapred-site.xml

<name>mapred.job.tracker</name>

</property>

其它的配置与老的配置一样。

/etc/hosts，在NN内网配置的上方加入外网的配置。如：

外网IP NN主机名

内网IP NN主机名

内网IP DN主机名

…

内网IP DN主机名

DataNode:

/etc/hosts，在NN内网配置的上方加入外网的配置。如：

外网IP NN主机名

内网IP NN主机名

内网IP DN主机名

…

内网IP DN主机名

2. 重启

NameNode、JobTracker、NadaNode

3. 关闭防火墙

命令：server iptables stop

说明：这里只是为了测试方便，所以将防火墙停止了，实际中应该是要加iptables规则的。

4. 执行集群间拷贝命令

Hadoop distcp /tmp/lalalala.txt hdfs:// Destination 外网IP:9000/tmp/test/lalalala.txt

命令解释：将老的Hadoop上的lalalala.txt(在/tmp目录下)文件拷贝到新的集群上，/tmp/test/lalalala.txt。这里只是拿一个文件做了测试，还可以是目录，更多使用可参看distcp

说明：这里的Destination外网IP:9000中的Port一定要与core-site.xml中的fs.default.name配置的Port一致。

Hadoop集群间数据拷贝

时间： 2024-10-10 03:41:02

Hadoop集群间数据拷贝的相关文章

Hadoop集群大数据平台搭建

Hadoop集群环境搭建配置前言 Hadoop的搭建分为三种形式:单机模式.伪分布模式.完全分布模式,只要掌握了完全分布模式,也就是集群模式的搭建,剩下的两种模式自然而然就会用了,一般前两种模式一般用在开发或测试环境下,Hadoop最大的优势就是分布式集群计算,所以在生产环境下都是搭建的最后一种模式:完全分布模式. 硬件选择须知: 分布式环境中一个服务器就是一个节点节点越多带来的是集群性能的提升一个Hadoop集群环境中,NameNode,SecondaryNameNode和DataNo

Pentaho Work with Big Data（七）—— 从Hadoop集群抽取数据

一.把数据从HDFS抽取到RDBMS 1. 从下面的地址下载示例文件. http://wiki.pentaho.com/download/attachments/23530622/weblogs_aggregate.txt.zip?version=1&modificationDate=1327067858000 2. 用下面的命令把解压缩后的weblogs_aggregate.txt文件放到HDFS的/user/grid/aggregate_mr/目录下. hadoop fs -put webl

集群间数据迁移报错

[[email protected] ~]$ hadoop distcp -update /user/hive/warehouse/cslc.db/ hdfs://172.26.xx.xx:8020/user/hive/warehouse/cslc.db/18/12/24 10:27:06 ERROR tools.DistCp: Invalid arguments: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.Stand

大数据系列（1）——Hadoop集群坏境搭建配置

前言关于时下最热的技术潮流,无疑大数据是首当其中最热的一个技术点,关于大数据的概念和方法论铺天盖地的到处宣扬,但其实很多公司或者技术人员也不能详细的讲解其真正的含义或者就没找到能被落地实施的可行性方案,更有很多数据相关的项目比如弄几张报表,写几个T-SQL语句就被冠以“大数据项目”,当然了,时下热门的话题嘛,先把“大数据”帽子扣上,这样才能显示出项目的高大上,得到公司的重视或者高层领导的关注. 首先,关于大数据的概念或者架构一直在各方争议的背景下持续的存在着.目前,关于大数据项目可以真正被落地

大数据系列（2）——Hadoop集群坏境CentOS安装

前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程因为我的笔记本是Window7操作系统,然后内存配置,只有8G,内存配置太低了,当然为了演示,我会将Hadoop集群中的主节点分配2GB内存,然后剩余的三个节点都是1GB配置. 所有的节点存储我都设置为50GB. 在安装操作系统之前,我们需要

大数据系列（3）——Hadoop集群完全分布式坏境搭建

前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本篇的正题. 技术准备 VMware虚拟机.CentOS 6.8 64 bit 安装流程我们先来回顾上一篇我们完成的单节点的Hadoop环境配置,已经配置了一个CentOS 6.8 并且完成了java运行环境的搭建,Hosts文件的配置.计算机名等诸多细节. 其实完成这一步之后我们就已经完成了Had

大数据——Hadoop集群坏境CentOS安装

云帆大数据学院Hadoop 集群 ——机器信息分布表

1.分布式环境搭建采用4 台安装Linux 环境的机器来构建一个小规模的分布式集群. 其中有一台机器是Master 节点,即名称节点,另外三台是Slaver 节点,即数据节点.这四台机器彼此间通过路由器相连,从而实验相互通信以及数据传输.它们都可以通过路由器访问Internet,实验网页文档的采集.2.集群机器详细信息2.1 Master 服务器名称详细信息机器名称Master.Hadoop机器IP 地址192.168.1.2最高用户名称(Name) root最用用户密码(PWD) hadoop

通过eclipse方法来操作Hadoop集群上cassandra数据库（包括创建Keyspace对象以及往数据库写入数据）

(1)下载cassandra,我所用版本为apache-cassandra-2.0.13-bin.tar.gz(hadoop版本为1.0.1),将其上传到hadoop集群,然后解压,tar -xzf apache-cassandra-2.0.13-bin.tar.gz; 并改名为 cassandra,放在目录/usr/下面,然后修改几个文件: vim cassandra.yaml 按照下面的字段修改 data_file_directories: - /usr/cassandra/data #