HDFS handler

http://docs.oracle.com/goldengate/bd1221/gg-bd/GADBD/GUID-85A82B2E-CD51-463A-8674-3D686C3C0EC0.htm#GADBD-GUID-EE2D45B1-11E6-4B2E-B91F-2FB49F90900A

1.hive support

12.2取消了hive handler，因为hdfs handler已经提供了之前hive handler的功能。

2.指定hdfs文件格式为Sequence File

2.1结合hive

CREATE EXTERNAL TABLE table_name (
  col1 string,
  ...
  ...
  col2 string)
ROW FORMAT DELIMITED
STORED as sequencefile
LOCATION ‘/path/to/hdfs/file‘;

注意：使用hive时，gg.handler.name.partitionByTable必须设置为true(默认)

2.2数据格式

关于数据格式详细的设置在Delimited Text Formatter

例子：

gg.handler.name.format=sequencefile
gg.handler.name.format.includeColumnNames=true
gg.handler.name.format.includeOpType=true
gg.handler.name.format.includeCurrentTimestamp=true
gg.handler.name.format.updateOpKey=U

3.运行前的设置

2.4.1 classpath的设置

两个配置必须被加入classpath中：core-site.xml和hdfs客户端jar包


The default location of the core-site.xml file is the follow: #core-site.xml文件
Hadoop_Home/etc/hadoop
The default location of the HDFS client jars are the following directories: #hdfs客户端位置
Hadoop_Home/share/hadoop/common/lib/*
Hadoop_Home/share/hadoop/common/*
Hadoop_Home/share/hadoop/hdfs/lib/*
Hadoop_Home/share/hadoop/hdfs/*

例子：


gg.classpath=/ggwork/hadoop/hadoop-2.6.0/etc/hadoop:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/common/lib/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/common/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/hdfs/*:/ggwork/hadoop/hadoop-2.6.0/share/hadoop/hdfs/lib/*

注意：严格按照上面的配置来。croe-site.xml文件的目录不能加*，jar的不能使用*.jar

2.4.2 支持多种文字格式化程序

文字格式化程序将tril 文件转化为格式的信息。支持以下：

JSON

Delimited Text

Avro Row

Avro Operation

Avro Object Container File Row

Avro Object Container File Operation

XML

2.4.3 hdfs的配置

参考：

http://docs.oracle.com/goldengate/bd1221/gg-bd/GADBD/GUID-85A82B2E-CD51-463A-8674-3D686C3C0EC0.htm#GADBD383

2.4.4 示例配置

gg.handlerlist=hdfs
gg.handler.hdfs.type=hdfs
gg.handler.hdfs.mode=tx
gg.handler.hdfs.includeTokens=false
gg.handler.hdfs.maxFileSize=1g
gg.handler.hdfs.rootFilePath=/ogg
gg.handler.hdfs.fileRollInterval=0
gg.handler.hdfs.inactivityRollInterval=0
gg.handler.hdfs.fileSuffix=.txt
gg.handler.hdfs.partitionByTable=true
gg.handler.hdfs.rollOnMetadataChange=true
gg.handler.hdfs.authType=none
gg.handler.hdfs.format=delimitedtext

2.4.5 troubleshoting

(1)日志

OGG FOR BIGDATA的数据流向是 Replicat Process >User Exit > Java Layer，可以以java层面设置日志。日志在dirrpt目录下

在hdfs.props中设置,可以控制日志级别

gg.log=log4j

gg.log.level=INFO

支持以下级别：

OFF

FATAL

ERROR

WARN

INFO

DEBUG

TRACE

安装时初始化了三个log4j的配置文件并且加入了环境变量中：

log4j-default.properties
log4j-debug.properites
log4j-trace.properties

可以在启动时设置log4j的属性：

javawriter.bootoptions=-Xmx512m -Xms64m -Djava.class.path=.:ggjava/ggjava.jar -Dlog4j.configuration=samplelog4j.properties

来自为知笔记(Wiz)

时间： 2024-10-13 00:13:00

HDFS handler的相关文章

OGG FOR BIGDATA 安装(修正)

参考:http://docs.oracle.com/goldengate/bd1221/gg-bd/GADBD/toc.htm 一.环境介绍源:centos6.5 oracl e 11.20.4 OGG版本:12.2.0.1.1 目标:OGG 版本Version 12.2.0.1 二.配置源端数据库 1.1 创建OGG用户并授权 create user ggmgr identified by ggmgr defaulttablespace DATA_OL; grant connect,re

kafka-connect-hdfs连接hadoop hdfs时候，竟然是单点的，太可怕了。。。果断改成HA

2017-08-16 11:57:28,237 WARN [org.apache.hadoop.hdfs.LeaseRenewer][458] - <Failed to renew lease for [DFSClient_NONMAPREDUCE_-1756242047_26] for 30 seconds. Will retry shortly ...> org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.ipc.StandbyE

Hadoop HA HDFS启动错误之org.apache.hadoop.ipc.Client: Retrying connect to server问题解决

近日,在搭建Hadoop HA QJM集群的时候,出现一个问题,如本文标题. 网上有很多HA的博文,其实比较好的博文就是官方文档,讲的已经非常详细.所以,HA的搭建这里不再赘述. 本文就想给出一篇org.apache.hadoop.ipc.Client: Retrying connect to server错误的解决的方法. 因为在搜索引擎中输入了错误问题,没有找到一篇解决问题的.这里写一篇备忘,也可以给出现同样问题的朋友一个提示. 一.问题描述 HA按照规划配置好,启动后,NameNode不能

2.安装hdfs yarn

下载hadoop压缩包设置hadoop环境变量设置hdfs环境变量设置yarn环境变量设置mapreduce环境变量修改hadoop配置设置core-site.xml设置hdfs-site.xml设置yarn-site.xml设置mapred-site.xml设置slave文件分发配置启动hdfs格式化namenode启动hdfs检查hdfs启动情况启动yarn测试mr任务hadoop本地库hdfs yarn和mapreduce参数下载hadoop压缩包去hadoop官网下载hadoop-2

kafka-connect-hdfs重启，进去RECOVERY状态，从hadoop hdfs拿租约，很正常，但是也太久了吧

虽说这个算是正常现象,等的时间也太久了吧.分钟级了.这个RECOVERY里面的WAL有点多余.有这么久的时间,早从新读取kafka写入hdfs了.纯属个人见解. @SuppressWarnings("fallthrough") public boolean recover() { try { switch (state) { case RECOVERY_STARTED: log.info("Started recovery for topic partition {}&quo

webhdfs追加写HDFS异常

问题 {:timestamp=>"2015-03-04T00:02:47.224000+0800", :message=>"Retrying webhdfs write for multiple times. Maybe you should increase retry_interval or reduce number of workers.", :level=>:warn}{:timestamp=>"2015-03-04T00

hadoop 使用ip配置导致hdfs启动失败

dataNode 有守护进行,但hdfs web页面上显示没有live node. 错误日志: 2017-06-21 17:44:59,513 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool BP-1394689615-10.85.123.43-1498038283287 (Datanode Uuid null) service to /10.85.123.43

HDFS优化

优化Linux文件系统 noatime和nodiratime属性 Linux文件系统会记录文件创建.修改和访问操作的时间信息,这在读写操作频繁的应用中将带来不小的性能损失.在挂载文件系统时设置noatime和nodiratime可禁止文件系统记录文件和目录的访问时间,这对HDFS这种读取操作频繁的系统来说,可以节约一笔可观的开销.可以修改/etc/fstab文件来实现这个设置.$ vim /etc/fstab如对/mnt/disk1使用noatime属性,可以做如下修改:/ ext4 defau

HDFS的Java客户端操作代码(HDFS的查看、创建)

1.HDFS的put上传文件操作的java代码: 1 package Hdfs; 2 3 import java.io.FileInputStream; 4 import java.io.FileNotFoundException; 5 import java.io.IOException; 6 import java.net.URI; 7 8 import org.apache.hadoop.conf.Configuration; 9 import org.apache.hadoop.fs.F