GBase入库流程详细笔记

1、Gbase入库的准备工作:
1)、输入表和输出表的字段必须对齐(对齐指字段的数量相等、字段的名称一致)
2)、gbase表里和spark表里都必须有分区字段(入库的脚本是按天或按月入库的),否则会报错或者任务显示成功,实质上并没有成功入库。

2、Gbase入库大体流程:
1) 第一步:算法(vmax_preProcessForGBbase_0.0.1.jar)从spark表中清洗到hdfs路径:/metadata/hdfs/load2gbase;
gbasefile{
classname=com.zte.vmax.metadata.preprocessforgbase.PreProcessForGBaseAction
classmethod=action
jarpath=%algorithmpath%/commonjar/vmax_preProcessForGBbase_0.0.1.jar
confpath=%algorithmpath%/config/gbaseLoaderPath.conf
}

2) 第二步: 从hdfs路径/metadata/hdfs/load2gbase下载到vmax节点/home/netnumen/ems/ums-server/utils/vmax-metadata-manager/GBaseLoaderFile;

3) 第三步: 把这个目录下面的文件上传到dispather节点(目前的配置基本上dispath节点与vmax在同一节点)的/home/vmax/gbasedb/GBaseLoaderFile 目录下;

4) 第四步: 调用gbase入库脚本/home/vmax/gbasedb/load_data.sh把数据入到Gbase.

过程:
1)对目录/metadata/hdfs/load2gbase,基本上1分钟(dataarrivalcheck.conf GBaseFilePath.scanInterval=1)扫描一次,
一共扫描60次(dataarrivalcheck.conf GBaseFilePath.scanCount = 60;

2)当上面的60次扫描完成之后(60分钟后),再对异常路径(/metadata/hdfs/load2gbaseException),再扫描一次;

3)异常路径扫描完成之后,再去上面正常路径(/metadata/hdfs/load2gbase)扫描60次,如此反复扫描。

------------------------------
工作路径及文件说明:
------------------------------
1)hdfs路径:
/metadata/hdfs/load2gbase 正常入库的hdfs路径:基本上1分钟(dataarrivalcheck.conf GBaseFilePath.scanInterval=1 )扫描一次,一共扫描60次(dataarrivalcheck.conf GBaseFilePath.scanCount = 60 );

/metadata/hdfs/load2gbaseException 有入库异常的hdfs路径:当上面的60次扫描完成之后,再扫描这个路径一次,再去上面路径扫描60次。

2)vmax节点:
/home/netnumen/ems/ums-server/utils/vmax-metadata-manager/GBaseLoaderFile 将hdfs上的数据文件下载下来的文件存放地

3)dispather节点:(目前的配置基本上dispath节点与vmax在同一节点)
/home/vmax/gbasedb/GBaseLoaderFile/data 将Vmax节点上的数据文件上传到 dispatch节点的数据存放地位置

4)gbase入库脚本:
/home/vmax/gbasedb/load_data.sh 通过该脚本将/home/vmax/gbasedb/GBaseLoaderFile/data导入到Gbase数据库。
会产生如下的命令:
sh /home/vmax/gbasedb/load_data.sh /home/hym/dm_plan_point_stat_d.csv zxvmax dm_plan_point_stat_d 133.37.23.235 6666 /home/hym/data.log /home/hym/data.txt 133.37.23.62

sh load_data.sh /home/hym/dm_base_sector_c_d11.csv zxvmax dm_base_sector_c_d 133.37.31.151 6666 data.log data.txt 133.37.31.150

------------------------------
日志文件说明:
------------------------------
1)一般启用线程扫描机制来完成数据入库GBase:
/home/netnumen/ems/ums-server/utils/vmax-metadata-manager/log/GBase/GbaseLoader.debug.log

2)数据加载服务将数据加载至gbase的过程,该过程会生成gbase同步日志文件,日志文件存放在(load_data.sh文件产生的日志文件):
/home/vmax/gbasedb/GBaseLoaderFile/表名/ 目录下。
比如会产生如下的内容:
Start mission [union_singleuserevaluate_voice_ratio] in dispatch mode...
[2016-11-15 12:42:55] SYSTEM: Launch loader on: 133.37.23.62 CMD: load gcluster data infile ‘rmt://133.37.23.235:6666/vfile?dispatch_id=2199&vfile_id=‘ into table `zxvmax`.`union_singleuserevaluate_voice_ratio` options ‘-m2 --user=gbase --password=xxxxxxxxxxxxx --socket=/tmp/gbase_8a_5050.sock --format=3 --parallel=4 --max_error_records=5000 --def_timestamp_format=\‘%Y-%m-%d %H:%i:%s.%f\‘ --def_datetime_format=\‘%Y-%m-%d %H:%i:%s.%f\‘ --delimiter=\‘\\x2C\‘ --null_value=\‘\\x6E\\x75\\x6C\\x6C\‘ --auto_fill_column=1 --current-timestamp=1479184975 ‘ fields terminated by ‘,‘

3)查看历史异常数据:
hdfs dfs -ls /metadata/hdfs/load2gbaseException
如果一直遗留历史异常数据也会影响gbase入库,需要删除hdfs的/metadata/hdfs/load2gbaseException/下的历史异常数据。

原文地址:https://www.cnblogs.com/hymmiaomiao/p/8695123.html

时间: 2024-08-08 15:49:21

GBase入库流程详细笔记的相关文章

xshell远程终端操作Ubuntu server安装LAMP环境之最详细笔记之二PHP开发环境配置

前言: 昨天学会了安装server,今天试着通过远程终端xshell来安装LAMP,搭配一下开发环境,也有集成环境可以一键安装使用,还是瞎折腾一下,手动一步一步搭建一下这个开发环境. 接上一篇:ubuntu server 14.04 LTS下搭建LAMP环境之最详细笔记之一U盘安装双系统本文原创博客地址:http://www.cnblogs.com/unofficial官网地址:www.pushself.com) 准备: 在windows系统上首先需要安装xhsell,具体下载地址可以搜一下,安

ubuntu server 14.04 LTS下搭建LAMP环境之最详细笔记之一U盘安装双系统

前言: 一直在WIN上使用PHP,不喜欢用WAMP,每次都是手动在windows配置环境,偶尔有一次装了小红帽玩了两天,感觉不是很习惯就换了回来,过了没几天见讨论LAMP环境,于是安装了ubuntu的desktop版本.安装好了环境使用了一下感觉也没有多大的意思,因为那一段时间没有怎么使用PHP,就这样又忽略掉了这一次学习的机会,直到上周日朋友最近在学习这方面的知识,说是要将一个老式电脑安装一个linux来玩玩.本文原创博客地址:http://www.cnblogs.com/unofficial

lucene 索引流程整理笔记

索引的原文档(Document). 为了方便说明索引创建过程,这里特意用两个文件为例: 文件一:Students should be allowed to go out with their friends, but not allowed to drink beer. 文件二:My friend Jerry went to school to see his students but found them drunk which is not allowed. 结果处的索引文件: Docume

《暗黑世界》安卓APK 编译流程详细说明教程!(图文)

原地址:http://bbs.gameres.com/forum.php?mod=viewthread&tid=223671 关于开发环境的搭建,之前的相关文档已经很详细的说明,对环境的搭建请参考以前的相关文档,如有问题,及时在论坛里提问,会有管理人员快速解答,此文档主要针对eclipse下安卓编译.    首先肯定是把暗黑世界的源码导入eclipse,源码导入进来后,就开始进行编译的准备工作,这里首先需要将Classes里面的.cpp文件和和相关的文件夹路径写进来,打开eclipse下的暗黑世

(转载)Linux下安装配置MySQL+Apache+PHP+WordPress的详细笔记

Linux下安装配置MySQL+Apache+PHP+WordPress的详细笔记 Linux下配LMAP环境,花了我好几天的时间.之前没有配置过,网上的安装资料比较混乱,加上我用的版本问题,安装过程中出现了一些错误,经过好几次安装,翻了好多资料,最后找出问题的所在,才把环境搭建好,对于高手来说,这或许不算什么,但对于一个刚入门的新人,却是不一样了,这篇文章记录着我的一些笔记,希望对于那些刚刚入门的人们有所帮助,仅作为参考. 安装首先我们得获得MySQL,Apache,PHP,WordPress

LNMP 源码安装 超详细笔记记录 PHP7 MariaDB 10.1.12

LNMP 源码安装 超详细笔记记录 php 7.04 版本 mariaDB  10.1.12 版本 首先安装nginx 一般编译nginx时,都要先安装pcre.zlib等外部支持程序,然后编译安装nginx时指定这些外部支持程序的位置,这样nginx在每次启动的时候,就会去动态加载这些东西了. 下面介绍的是另一种方式,即将这些程序编译到nginx里面去,这样nginx启动时就不会采用动态加载的方式去load.从古谱中可获知,这种方式会比动态加载有更高的效率. 首先 安装 yum install

lucene 检索流程整理笔记

lucene 检索流程整理笔记

《暗黑世界》安卓APK 编译流程详细说明教程

(附件下载地址:http://www.9miao.com/question-15-53727.html) 关于开发环境的搭建,之前的相关文档已经很详细的说明,对环境的搭建请参考以前的相关文档,如有问题,及时在论坛(http://www.9miao.comm)里提问,会有管理人员快速解答,此文档主要针对eclipse下安卓编译. 首先肯定是把暗黑世界的源码导入eclipse,源码导入进来后,就开始进行编译的准备工作,这里首先需要将Classes里面的.cpp文件和和相关的文件夹路径写进来,打开ec

asp微信公众号支付回调参数入库demo详细示例

最近接的一个小项目,客户要求用asp写,微信公众号支付完成后回调入库,晚上加了会班,帮他写了一段asp微信公众号支付回调参数入库demo详细示例 sub AddData() '当本接口网络出现问题或无法返回success字符时,微信将会在30分钟内重复8次后台通知,入库时需要判断是否已经入库,避免重复数据入库 '看看记录存在了吗 dim Rs,SQL,rsf'必须声明,微信支付环境要求很高 set rsf=conn.execute ("select * from Order_Info where