hive跨集群迁移表

一、原集群操作:

1、hdfs创建目录
hdfs dfs -mkdir /tmp/hive-export

2、hive导出表命令
hive -e "use 库;show tables" | awk ‘{printf "use 库;export table %s to @/tmp/hive-export/%[email protected];\n",$1,$1}‘ | sed "s/@/‘/g" > export.sql

3、报错
return code -101 from org.apache.hadoop.hive.ql.exec.copytask org/apache/hadoop/tools/distcpoptions
使用 -hiveconf hive.root.logger=DEBUG,console 参数打印错误信息,有如下内容:
java.lang.NoClassDefFoundError: org/apache/hadoop/tools/DistCpOptions

4、原因
hive 最后移动数据的时候,需要调用hadoop-distcp-X.X.X.jar,
解决方法:只需要把$HADOOP_HOME/share/hadoop/tools/lib/hadoop-distcp-x.x.x.jar 拷贝到 $HIVE_HOME/lib下面,重启hive即可

5、继续执行2命令

6、hive导出数据到hdfs
hive -f export.sql

二、新集群操作

1、hdfs创建目录
hdfs dfs -mkdir /tmp/hive-export

2、将hdfs数据导入到新集群
hadoop distcp hdfs://原/tmp/hive-export/* /tmp/hive-export

3、修改export.sql
sed -i ‘s/export table/import table/g‘ export.sql
sed -i ‘s/ to / from /g‘ export.sql

4、执行导入还会报错,按照之前解决方法解决

5、hive导入
hive -f export.sql

原文地址:https://www.cnblogs.com/water-sky/p/11889820.html

时间: 2024-11-11 23:04:49

hive跨集群迁移表的相关文章

使用SCVMM跨集群迁移虚拟机失败(2904)

最近为客户部署了一个测试Hyper-V集群,其希望从原来的Hyper-V集群中将某些测试的虚拟机迁移到新部署的测试集群中,两个集群采用的Hyper-V版本均为Windows Server 2012.两个集群采用同一个SCVMM进行管理.   问题现象 在迁移某些虚拟机的时候,SCVMM提示了ID为2904的错误.错误详细信息为"VMM在XXX服务器上找不到指定的路径C:\ClusterStorage\Volume1\虚拟机名称\Virtual Hard Disks\.系统找不到指定的路径.(0x

Kafka跨集群迁移方案MirrorMaker原理、使用以及性能调优实践

序言Kakfa MirrorMaker是Kafka 官方提供的跨数据中心的流数据同步方案.其实现原理,其实就是通过从Source Cluster消费消息然后将消息生产到Target Cluster,即普通的消息生产和消费.用户只要通过简单的consumer配置和producer配置,然后启动Mirror,就可以实现准实时的数据同步. 1. Kafka MirrorMaker基本特性Kafka Mirror的基本特性有: 在Target Cluster没有对应的Topic的时候,Kafka Mir

GaussDB 200跨集群访问HDFS

当需要从Hive等Hadoop集群迁移数据到GaussDB 200集群时,因为数据量太大,可能无法导出到本地.此时需要GaussDB 200跨集群读取HDFS上的数据,并写入GaussDB 200集群. 目前GaussDB 200只支持跨集群访问FusionInsight HD中的HDFS. 前提条件 FusionInsight HD和GaussDB 200两个集群状态正常并且可以互相通信. 远端FusionInsight HD集群被访问的表为ORC格式. 远端FusionInsight HD集

HDFS跨集群数据合并方案之ViewFileSystem

前言 在很多时候,我们会碰到数据融合的需求,比如说原先有A集群,B集群,后来管理员认为有2套集群,数据访问不方便,于是设法将A,B集群融合为一个更大的集群,将他们的数据都放在同一套集群上.一种办法就是用Hadoop自带的DistCp工具,将数据进行跨集群的拷贝.当然这会带来很多的问题,如果数据量非常庞大的话.本文给大家介绍另外一种解决方案,ViewFileSystem,姑且可以叫做视图文件系统.大意就是让不同集群间维持视图逻辑上的唯一性,不同集群间还是各管各的. 传统数据合并方案 为了形成对比,

GuassDB 200跨集群访问其他数据平台

本文分别介绍GuassDB跨集群访问远端oracle以及远端MPPDB数据库.因环境有限,这里不列举对接HDFS以及对接Spark功能. 一.对接oracle数据库 1.约束限制 仅支持连接Oracle11.2.0.1至Oracle12.2.0.1. 要求Oracle-ODBC驱动的版本为12.2.0.1.0. unixODBC的版本要求为2.3.6. 支持最多配置20组远端Oracle配置. 配置所需要的Oracle ODBC请从Oracle官网下载.以配置访问Oracle11.2.0.4为例

cdh5+hive+zookeeper集群环境搭建

环境 1.centos6.5(64位) 机器规划及节点分布 主机 角色 节点 节点 节点 节点 节点 192.168.115.132 master namenode   journalnode zk hive 192.168.115.133 slave1 namenode datanode journalnode zk hive 192.168.115.134 slave2   datanode journalnode zk   目录设置 dfs.namenode.name.dir = file

MySQL集群数据库表的主键设计

使用MySQL数据库的人,毫无例外的在设计时都会碰到主键的选型,一般都会在下面三种中选择一个或多个,自增长列.UUID以及UUID_SHORT,这集中主键的特性,想必大家都非常了解了,我就不再细说了,在InnoDB引擎中,选择哪种主键更好,网上也有很多帖子有描述,基本上都是建议是自增长列或者搭配UUID作为逻辑主键一起使用,但是如果是ndbcluster引擎呢? 为此我专门做了一下测试,环境为4台物流机器(2C,8G内存)做的数据节点,NoOfReplicas=2,首先建立三张表. CREATE

Oracle数据库集群添加表空间操作规范

1.首先检查dg空间是否充足SQL> select name,total_mb,free_mb,USABLE_FILE_MB from v$asm_diskgroup; NAME                                TOTAL_MB    FREE_MB USABLE_FILE_MB --------------------------------- ---------- ---------- -------------- DATADG                 

王家林的云计算分布式大数据Hadoop征服之旅:HDFS&MapReduce&HBase&Hive&集群管理

一:课程简介: 作为云计算实现规范和实施标准的Hadoop恰逢其时的应运而生,使用Hadoop用户可以在不了解分布式底层细节的情况下开发出分布式程序,从而可以使用众多廉价的计算设备的集群的威力来高速的运算和存储,而且Hadoop的运算和存储是可靠的.高效,的.可伸缩的,能够使用普通的社区服务器出来PB级别的数据,是分布式大数据处理的存储的理想选择. 本课程会助你深入浅出的掌握Hadoop开发(包括HDFS.MapReduce.HBase.Hive等),并且在此基础上掌握Hadoop集群的配置.维