GaussDB 200跨集群访问HDFS

当需要从Hive等Hadoop集群迁移数据到GaussDB 200集群时,因为数据量太大,可能无法导出到本地。此时需要GaussDB 200跨集群读取HDFS上的数据,并写入GaussDB 200集群。

目前GaussDB 200只支持跨集群访问FusionInsight HD中的HDFS。

前提条件

  • FusionInsight HD和GaussDB 200两个集群状态正常并且可以互相通信。
  • 远端FusionInsight HD集群被访问的表为ORC格式。
  • 远端FusionInsight HD集群HDFS服务配置选项“hadoop.rpc.protection”值为“authentication”。
  • 远端FusionInsight HD集群存在具有访问集群HDFS数据目录权限的用户。
  • 远端FusionInsight HD集群已安装了客户端。

    操作步骤

    1、创建配置文件

    登录FusionInsight Manager>选择“集群 > 待操作的集群名称 > 服务 > MPPDB > 对接 > 对接HDFS”,单击“创建”,填写配置组名称,单击“确定”。如下图所示:

    各个参数的说明如下图所示:

    保存完成后,mppdb概览里会显示配置状态为过期配置,立即重启mppdb服务即可。另外,上传的文件位置位于${BIGDATA_HOME}/mppdb/hdfs_conf下面。

    2、创建HDFS外表SERVER

    使用omm用户,登录数据库执行下面的操作创建外表server。

    [[email protected] ~]$ source ${BIGDATA_HOME}/mppdb/.mppdbgs_profile
    [[email protected] ~]$ gsql -d rhnschema -p 25308 -r
    rhnschema=# create server server_test foreign data wrapper hdfs_fdw options(address ‘192.168.110.35:25000,192.168.110.36:25000‘,hdfscfgpath ‘/opt/huawei/Bigdata/mppdb/hdfs_conf/FHD/[email protected]‘,type ‘HDFS‘);
    CREATE SERVER


    可以使用下面的SQL查询已创建的server信息:

    rhnschema=# select *from pg_foreign_server where srvname=‘server_test‘;

3、创建HDFS外表

rhnschema=# create foreign table f_a (id int,name text) server server_test options(format ‘orc‘,foldername ‘/user/hive/warehouse/hivedb.db/a‘) distribute by roundrobin;
CREATE FOREIGN TABLE

创建外表的语法如下图所示:

4、验证

rhnschema=# select *from f_a;

原文地址:https://blog.51cto.com/candon123/2458043

时间: 2024-10-09 22:57:33

GaussDB 200跨集群访问HDFS的相关文章

GuassDB 200跨集群访问其他数据平台

本文分别介绍GuassDB跨集群访问远端oracle以及远端MPPDB数据库.因环境有限,这里不列举对接HDFS以及对接Spark功能. 一.对接oracle数据库 1.约束限制 仅支持连接Oracle11.2.0.1至Oracle12.2.0.1. 要求Oracle-ODBC驱动的版本为12.2.0.1.0. unixODBC的版本要求为2.3.6. 支持最多配置20组远端Oracle配置. 配置所需要的Oracle ODBC请从Oracle官网下载.以配置访问Oracle11.2.0.4为例

HDFS跨集群数据合并方案之ViewFileSystem

前言 在很多时候,我们会碰到数据融合的需求,比如说原先有A集群,B集群,后来管理员认为有2套集群,数据访问不方便,于是设法将A,B集群融合为一个更大的集群,将他们的数据都放在同一套集群上.一种办法就是用Hadoop自带的DistCp工具,将数据进行跨集群的拷贝.当然这会带来很多的问题,如果数据量非常庞大的话.本文给大家介绍另外一种解决方案,ViewFileSystem,姑且可以叫做视图文件系统.大意就是让不同集群间维持视图逻辑上的唯一性,不同集群间还是各管各的. 传统数据合并方案 为了形成对比,

格式化hdfs后,hadoop集群启动hdfs,namenode启动成功,datanode未启动

集群格式化hdfs后,在主节点运行启动hdfs后,发现namenode启动了,而datanode没有启动,在其他节点上jps后没有datanode进程!原因: 当我们使用hdfs namenode -format格式化namenode时,会在namenode数据文件夹中保存一个current/VERSION文件,记录clusterID,而datanode中保存的current/VERSION文件中的clustreID的值是第一次格式化保存的clusterID,刚好有进行了一次格式化,在namen

GaussDB T分布式集群部署以及升级指南

本文用四节点部署GaussDB T 1.0.1分布式集群,部署完成后再将其升级到1.0.2版本(直接安装1.0.2版本,在安装过程中会遇到segment fault报错,目前尚未解决).前期操作系统准备工作参考之前的几篇文章. 1.部署分布式集群 1.1 节点信息 各节点信息如下表所示: 1.2 集群参数文件 根据实际情况修改集群参数,或者通过database manager工具生成,内容如下: [[email protected] db]# vi clusterconfig.xml <?xml

为已存在的Hadoop集群配置HDFS Federation

一.实验目的 1. 现有Hadoop集群只有一个NameNode,现在要增加一个NameNode. 2. 两个NameNode构成HDFS Federation. 3. 不重启现有集群,不影响数据访问. 二.实验环境 4台CentOS release 6.4虚拟机,IP地址为 192.168.56.101 master 192.168.56.102 slave1 192.168.56.103 slave2 192.168.56.104 kettle 其中kettle是新增的一台"干净"

Kafka跨集群迁移方案MirrorMaker原理、使用以及性能调优实践

序言Kakfa MirrorMaker是Kafka 官方提供的跨数据中心的流数据同步方案.其实现原理,其实就是通过从Source Cluster消费消息然后将消息生产到Target Cluster,即普通的消息生产和消费.用户只要通过简单的consumer配置和producer配置,然后启动Mirror,就可以实现准实时的数据同步. 1. Kafka MirrorMaker基本特性Kafka Mirror的基本特性有: 在Target Cluster没有对应的Topic的时候,Kafka Mir

Hadoop集群(二) HDFS搭建

HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的.所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始. 安装Hadoop集群,首先需要有Zookeeper才可以完成安装.如果没有Zookeeper,请先部署一套Zookeeper.另外,JDK以及物理主机的一些设置等.请参考: Hadoop集群(一) Zookeeper搭建 Hadoop集群(三) Hbase搭建 Hadoop集群(四) Hadoop升级 下面开始HDFS的安装 HDFS主机分配 1

hadoop集群之HDFS和YARN启动和停止命令

假如我们只有3台linux虚拟机,主机名分别为hadoop01.hadoop02和hadoop03,在这3台机器上,hadoop集群的部署情况如下: hadoop01:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager: hadoop02:1个namenode,1个datanode,1个journalnode,1个zkfc,1个resourcemanager,1个nodemanager: hadoo

hive跨集群迁移表

一.原集群操作: 1.hdfs创建目录hdfs dfs -mkdir /tmp/hive-export 2.hive导出表命令hive -e "use 库;show tables" | awk '{printf "use 库;export table %s to @/tmp/hive-export/%[email protected];\n",$1,$1}' | sed "s/@/'/g" > export.sql 3.报错return c