gpfdist工具的初级使用

gpfdist工具的使用主要两步:

第一步:打开gpfdist服务:

gpfdist -d /home/admin -p 8081 -l /tmp/gpfdist.log &

参数解释:

-d 数据文件所放的目录,我这里的路径为/home/admin。

-p 设置访问gpfdist端口,这个可以根据实际情况写。

-l 设置日志文件所放的目录,这个参数也可以不用填写。

* 必须注意“&”这个符号绝对不能忘记填写,不然开始服务会失败。

如果执行成功请看下图中出现的 Serving HTTP on port 8787,directory /home/admin

第二部:编写导入的sql语句:

1)准备数据文件:

2)准备sql脚本:

create external table test001_ext
(
 id integer
 ,name varchar(128)
)
Location
(
 ‘gpfdist://192.168.23.128:8081/test001.txt‘
)
Format ‘TEXT‘ (delimiter as ‘ ‘ null as ‘‘ escape ‘OFF‘)
Encoding ‘GB18030‘ Log errors into public.test001_err segment reject limit 10 rows

Location中填写的gpfdist://服务器地址:端口/文件名称

服务器地址:就是安装linux系统的ip。

端口:就是上面自己配饰的访问gpfdist的端口。

文件名称:就是准备的数据文件名称。

format:设置加载数据文件的格式,delimiter as 定义数据之间的分隔符,这里用到的是空格, null as 定义了null用空值替换。

Encoding 设置数据的编码格式。

Log 设置了加载数据错误的日期会存放到test001_err这张表。

时间: 2024-11-10 07:16:34

gpfdist工具的初级使用的相关文章

GreenPlum数据的装载与卸载之外部表以及gpfdist工具的使用

Greenplum的外部表和ORACLE的外部表一样,都是数据存储在数据库之外的表.它的外部表除了可以加载本地的数据,还可以通过gpfdist工具并行加载数据.由于本地方式加载的效率低,已经被gpfdist取代.本文先介绍本地方式加载,后介绍gpfdist方式. 1.本地方式加载 1.1.创建外部表 rhnschema=# CREATE EXTERNAL TABLE ext_rhn1 (package_id numeric, primary_xml bytea, filelist bytea,

初级软件测试总结

1.测试用例编写 1.1 设计测试用例的依据 根据需求文档,项目设计文档,接口文档,系统使用手册等来设计测试用例. 重点是要理清项目的流程,核心模块,实现的主要功能. 还应该在开发过程与测试过程之间建立起一对一的联系. 一般的软件测试生命周期: 需求分析-用例设计-脚本开发-测试执行-结果分析 但在实际测试过程中,会根据项目的周期来调整测试的时间. 1.2最常接触的基础测试类别 1.2.1模块测试 - 模块测试的目的是发现程序模块与其接口规格说明之间的不一. 1.2.2功能测试 功能测试的目的是

GreenPlum简单性能测试与分析--续

版权声明:本文由黄辉原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/259 来源:腾云阁 https://www.qcloud.com/community 之前对GreenPlum与Mysql进行了TPC-H类的对比测试,发现同等资源配比条件下,GreenPlum的性能远好于Mysql,有部分原因是得益于GreenPlum本身采用了更高效的算法,比如说做多表join时,采用的是hash join方式.如果采用同样高效的算

第四章关键的构建决策(代码大全2)

一旦你能确定 “构建”的基础已经打好,那么准备工作就转变为针对特定“构建”的决策了.第3章“三思而后行:前期准备”讨论了设计蓝图和建筑许可证在软件业务里的等价物.你可能对那些准备工作没有多少发言权,所以在第3章关注的焦点是确定“当构建开始后你需要做什么”.本章关注的焦点是程序员和技术带头人个人必须(直接或间接)负责的准备工作.在向工地进发之前,如何选择适用的工作别在你的腰带上,你的手里车里应该装哪些东西?本章讨论的就是这事务在软件中的等价物. 4.1 选择编程语言(Choice of Progr

Windows下用putty向远程Linux传输文件

Putty系列工具,点我下载 1.pscp 在putty目录下,存在可执行文件pscp.exe. win+R 输入cmd进入命令行,比如要将本地的FusionComputer文件上传到远程计算机192.168.1.110的home/Fusion中,远程主机登陆账号为root,命令如下: pscp   FusionComputer    [email protected]:/home/Fusion 然后提示输入密码,然后OK 2.psftp 也可以使用putty安装包自带的psftp.exe工具,

EA业务建模实践之业务用例图

本文重点是业务建模实践,以及建模工具EA初级使用过程日志. 先前写了些文档,从不同角度描述了业务建模,但是条理性和规范性仍无法让人一目了然.春节期间当我再次读了<软件方法>前几章,产生了共鸣:误解随处都在,通过UML规范沟通环境,是辛勤汗水的教训. 按书中观点及回答问题如下: 业务建模:描述组织内部各系统(人肉系统.机械系统.电脑系统......)如何协作,使得组织可以为其他组织提供有价值的服务.新系统只不过是组织为了对外提供更好的服务,对自己的内部重新设计而购买的一个零件.组织引进一个软件系

putty windows上传文件到linux服务器 &amp; 从linux服务器 下载文件到 windows

从putty官网下载putty软件:putty.exepscp.exepsftp.exe等软件 也可以自己下windows安装包putty-0.63-installer.exe 本人直接下载putty-0.63-installer.exe安装包了,然后直接安装 使用pscp方式从windows上传文件到linux服务器 在CMD命令行中进入到putty安装目录 输入pscp 回车 pscp 跟我们平时使用的linux scp命令操作的都是类似的 现在我直接从windows本地上传一个文件到lin

GreenPlum数据加载

1. copy命令 对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行数据加载,数据需要经过Master节点分发到Segment节点,同样使用copy命令进行数据卸载,数据也需要由Segment发送到Master节点,由Master节点汇总后再写入外部文件,这样就限制了数据加载与卸载的效率,但是数据量较小的情况下,copy命令就非常方便.下面测试通过copy命令实现操

datax采坑体验

因为公司需要使用greenplum,而官方的datax版本在导数据到greenplum时,速度是非常慢的(严格说是datax导数据到postgresql,在导入到GP时,数据走的是master,一条一条insert的,当然是慢). 所以,这里采用了别人开发好的支持GP 的datax版本:https://github.com/HashDataInc/DataX 首先来说一下GP,GP作为一种数据仓库工具,是比较特殊的,因为一般的etl工具在往GP中导数据普遍是比较慢的. GP底层就是多个postg