Loading Data Into Hive From File By ODI 12c

本文介绍如何将文本文件中的数据通过ODI导入Hive数据仓库。

一、Hive上创建目标表

1.1 源表定义

CREATE TABLE EXAM_SCORE
(
  ID            NUMBER(4),
  AREA_ID       NUMBER(1),
  EXAM_INFO_ID  NUMBER(3),
  STU_SEQUENCE  NUMBER(12),
  SCORE         NUMBER(3),
  SUBJECT_ID    NUMBER(3),
  CLASS_ID      NUMBER(6)
)

1.2 目标表定义

CREATE TABLE hivedb.exam_score
(
  ID            string,
  AREA_ID       string,
  EXAM_INFO_ID  string,
  STU_SEQUENCE  string,
  SCORE         string,
  SUBJECT_ID    string,
  CLASS_ID      string
);

二、构造映射关系

2.1 新建Hive模型

如下图所示，输入相关参数后，先保存，然后点击“Reverse Engineer”，同步表结构。

2.2 新建File模型

Definition选项栏：

Files选项栏：

Attributes选项栏：

2.3 创建映射关系图

拖动文件模型和hive模型，组成下图中的映射关系：

其中，LKM选择“LKM File to Hive LOAD DATA.GLOBAL”，如果文件在本地，则设置“FILE_IS_LOCAL”的值为“True”，如下图：

其中、IKM选择“IKM Hive Incremental Update.GLOBAL”，如果要清空表中现有数据，则设置TRUNCATE的值为True即可，如下图：

最后保存所有更改。

2.4 执行映射

执行结果如下图：

原文地址：http://blog.51cto.com/candon123/2087618

时间： 2024-11-06 03:45:26

Loading Data Into Hive From File By ODI 12c的相关文章

Loading Data into HDFS

How to use a PDI job to move a file into HDFS. Prerequisites In order to follow along with this how-to guide you will need the following: Hadoop Pentaho Data Integration Sample Files The sample data file needed for this guide is: File Name Content we

使用OGG&quot;Loading data from file to Replicat&quot;的方法应该注意的问题：replicat进程是前台进程

使用OGG的 "Loading data from file to Replicat"的方法应该注意的问题:replicat进程是前台进程因此.最好是在vncserver中调用该replicat进程或者以nohup方式放在后台执行.以下的是使用nohup方式放在后台执行. [[email protected] ~]$ ll rep_backgroud.sh -rwxr-xr-x 1 oracle oinstall 98 Jun 2 03:02 rep_backgroud.sh [[e

使用OGG"Loading data from file to Replicat"的方法应该注意的问题：replicat进程是前台进程

使用OGG的 "Loading data from file to Replicat"的方法应该注意的问题:replicat进程是前台进程因此,最好是在vncserver中调用该replicat进程或者以nohup方式放在后台运行.下面的是使用nohup方式放在后台运行. [[email protected] ~]$ ll rep_backgroud.sh -rwxr-xr-x 1 oracle oinstall 98 Jun 2 03:02 rep_backgroud.sh [[e

OGG &quot;Loading data from file to Replicat&quot;table静态数据同步配置过程

OGG "Loading data from file to Replicat"table静态数据同步配置过程一个.mgr过程 GGSCI (lei1) 3> view params mgr port 7809 二.抽取进程extftor GGSCI (lei1) 4> view params extftor SOURCEISTABLE userid goldengate, password yyyyy rmthost 192.168.100.189, mgrport 7

关于 OGG "Loading data from file to Replicat"同步含有lob字段表的部分记录的关键参数

首先说明一点: Loading data with an Oracle GoldenGate direct load 这个方法,对含有如下数据类型的table,是无法使用的: LOBs, LONGs, user-defined types (UDT), or any other large data type that is greater than 4 KB in size. 因此,遇到如下需求时,就不得不用OGG "Loading data from file to Replicat&quo

解决ODI 12C Studio 运行缓慢问题

一.配置 ODI 12C Studio 1.1 修改ODI Studio process的-Xms和-Xmx ide.conf: modifying the initial Heap size (-Xms), and/or maximum Heap size (-Xmx) of the ODI Studio Java process. 路径: "$ODI_HOME\jdeveloper\ide\bin\ide.conf (我的路径为D:\Oracle\Middleware\Oracle_Hom

FusionInsight LibrA与ODI 12c的完美结合

本文介绍如何通过ODI 12c同步PostgreSQL数据到FusionInsight LibrA. 1.FusionInsight LibrA客户端配置在ODI服务上配置FusionInsight LibrA客户端,完成客户端认证操作. [[email protected] ~]$ source /u02/huawei/client/bigdata_env [[email protected] ~]$ kinit candon Password for [email protected]:

Loading Data From Oracle To Hive By ODI 12c

本文描述如何通过ODI将Oracle表数据同步到Hive.1.准备工作在hadoop集群的各个节点分别安装Oracle Big Data Connectors,具体的组件如下图所示:这里只需安装Oracle Loader For Hadoop(oraloader)以及Oracle SQL Connector for Hadoop Distributed File System (oraosch)两个软件.安装比较简单,直接解压即可使用(这里的ODI.oraosch以及oraloader组件都是以

OGG "Loading data from file to Replicat"table数据的静态同步配置过程

一.mgr进程 GGSCI (lei1) 3> view params mgr port 7809 二.抽取进程extftor GGSCI (lei1) 4> view params extftor SOURCEISTABLE userid goldengate, password yyyyy rmthost 192.168.100.189, mgrport 7809 RMTFILE /u02/ggs/dirdat/pp, MAXFILES 1000, MEGABYTES 100 table