Sqoop处理Clob与Blob字段

[Author]: kwu

Sqoop处理Clob与Blob字段，在Oracle中Clob为大文本。Blob存储二进制文件。

遇到这类字段导入hive或者hdfs须要特殊处理。

1、oracle中的測试表

CREATE TABLE
    T_LOB
    (
        A INTEGER,
        B CLOB,
        C BLOB
    )

測试数据

insert into T_LOB (A, B, C) values (1, 'clob測试',to_blob('3456'));

2、sqoop脚本

import
--append
--connect
jdbc:oracle:thin:@localhost:1521/orcl
--username
wuke
--password
Abcd1234
--table
BDC_TEST.T_LOB
--columns
"A,B,C"
--target-dir
/tmp/t_lob

-m
1

运行脚本

sqoop --options-file ./importHdfs.opt

3、查看生成的HDFS文件

watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvQkRDSG9tZQ==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center" >

能够看出。clob的字段是导入到hdfs上是正常显示文本，blob是二进制文件导出到hdfs上显示为16进制

16进制转换为string可採用例如以下方法，实际上通过移位操作来实现：

package com.ganymede.test;

/**
 * 十六进制的转换操作
 * @author Ganymede
 *
 */
public class Hex {

	/**
	 * 用于建立十六进制字符的输出的小写字符数组
	 */
	private static final char[] DIGITS_LOWER = { '0', '1', '2', '3', '4', '5',
			'6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f' };

	/**
	 * 用于建立十六进制字符的输出的大写字符数组
	 */
	private static final char[] DIGITS_UPPER = { '0', '1', '2', '3', '4', '5',
			'6', '7', '8', '9', 'A', 'B', 'C', 'D', 'E', 'F' };

	/**
	 * 将字节数组转换为十六进制字符数组
	 *
	 * @param data
	 *            byte[]
	 * @return 十六进制char[]
	 */
	public static char[] encodeHex(byte[] data) {
		return encodeHex(data, true);
	}

	/**
	 * 将字节数组转换为十六进制字符数组
	 *
	 * @param data
	 *            byte[]
	 * @param toLowerCase
	 *            <code>true</code> 传换成小写格式 。 <code>false</code> 传换成大写格式
	 * @return 十六进制char[]
	 */
	public static char[] encodeHex(byte[] data, boolean toLowerCase) {
		return encodeHex(data, toLowerCase ? DIGITS_LOWER : DIGITS_UPPER);
	}

	/**
	 * 将字节数组转换为十六进制字符数组
	 *
	 * @param data
	 *            byte[]
	 * @param toDigits
	 *            用于控制输出的char[]
	 * @return 十六进制char[]
	 */
	protected static char[] encodeHex(byte[] data, char[] toDigits) {
		int l = data.length;
		char[] out = new char[l << 1];
		// two characters form the hex value.
		for (int i = 0, j = 0; i < l; i++) {
			out[j++] = toDigits[(0xF0 & data[i]) >>> 4];
			out[j++] = toDigits[0x0F & data[i]];
		}
		return out;
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 *
	 * @param data
	 *            byte[]
	 * @return 十六进制String
	 */
	public static String encodeHexStr(byte[] data) {
		return encodeHexStr(data, true);
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 *
	 * @param data
	 *            byte[]
	 * @param toLowerCase
	 *            <code>true</code> 传换成小写格式 ， <code>false</code> 传换成大写格式
	 * @return 十六进制String
	 */
	public static String encodeHexStr(byte[] data, boolean toLowerCase) {
		return encodeHexStr(data, toLowerCase ?

DIGITS_LOWER : DIGITS_UPPER);
	}

	/**
	 * 将字节数组转换为十六进制字符串
	 *
	 * @param data
	 *            byte[]
	 * @param toDigits
	 *            用于控制输出的char[]
	 * @return 十六进制String
	 */
	protected static String encodeHexStr(byte[] data, char[] toDigits) {
		return new String(encodeHex(data, toDigits));
	}

	/**
	 * 将十六进制字符数组转换为字节数组
	 *
	 * @param data
	 *            十六进制char[]
	 * @return byte[]
	 * @throws RuntimeException
	 *             假设源十六进制字符数组是一个奇怪的长度，将抛出执行时异常
	 */
	public static byte[] decodeHex(char[] data) {

		int len = data.length;

		if ((len & 0x01) != 0) {
			throw new RuntimeException("Odd number of characters.");
		}

		byte[] out = new byte[len >> 1];

		// two characters form the hex value.
		for (int i = 0, j = 0; j < len; i++) {
			int f = toDigit(data[j], j) << 4;
			j++;
			f = f | toDigit(data[j], j);
			j++;
			out[i] = (byte) (f & 0xFF);
		}

		return out;
	}

	/**
	 * 将十六进制字符转换成一个整数
	 *
	 * @param ch
	 *            十六进制char
	 * @param index
	 *            十六进制字符在字符数组中的位置
	 * @return 一个整数
	 * @throws RuntimeException
	 *             当ch不是一个合法的十六进制字符时，抛出执行时异常
	 */
	protected static int toDigit(char ch, int index) {
		int digit = Character.digit(ch, 16);
		if (digit == -1) {
			throw new RuntimeException("Illegal hexadecimal character " + ch
					+ " at index " + index);
		}
		return digit;
	}

	public static void main(String[] args) {
		String srcStr = "待转换字符串";
		String encodeStr = encodeHexStr(srcStr.getBytes());
		String decodeStr = new String(decodeHex(encodeStr.toCharArray()));
		System.out.println("转换前：" + srcStr);
		System.out.println("转换后：" + encodeStr);
		System.out.println("还原后：" + decodeStr);

		System.out.println("---------------------------------------");
		decodeStr = new String(decodeHex("3435363738390d0a626c6f62".toCharArray()));
		System.out.println("还原后：" + decodeStr);
	}

}

对于hive能够在入库前转换成string。或者直接入库后使用udf来转换

时间： 2024-12-23 04:30:09

Sqoop处理Clob与Blob字段的相关文章

好记性不如烂笔头20-java对oracle的clob和blob字段的总结

整体情况 CLOB字段在实际工作中,还是有很多的应用场景:但是BLOB字段在现在的大型系统中,作用越来越不尽如人意. 因为数据库资源,在大型系统中,升级成本是最高的:而BLOB字段中大量的数据,会给数据库造成严重的IO问题.如果我们购买几百万的小型机,就是为了存放几张普通图片,估计会被人把牙齿笑掉:虽然数据库有良好的认证系统,但是不代表用文件系统不能实现. 因此,如果是老的系统,如果我们不打算全面重构和升级,那么这个BLOB改用还是要用:如果是新的系统,原则上不推荐BLOB字段,实现的代价较高,

Oracle修改表Table所属表空间及Clob、Blob字段的处理

我们会发现通过exp.imp导入库的表所属表空间还是导出时的表空间,那么假如我们导入的数据库表空间和导入时的数据库表空间不一致时就会比较麻烦,这里我们主要处理,已经导入的表所属表空间不是指向我们所要的表空间时如何修改. 1.查看表当前所属表空间 SELECT TABLE_NAME,TABLESPACE_NAME FROM USER_TABLES -- WHERE TABLE_NAME='test' --可以加上条件比如我们看到我的库里有两个表表空间是USERS,而非我们自建的FC

SOLR的db-data-config.xml高级进阶(处理CLOB和BLOB）

SOLR的db-data-config.xml高级进阶(处理CLOB和BLOB) 我们在使用solr处理数据库时,很多时候需要处理一下数据库中的CLOB.BLOB字段,对于这两种字段如何处理,下面以代码的形式给大家演示,(不用写Java代码啊) 1)定义数据源 <dataSource name="ora" driver="oracle.jdbc.OracleDriver" url="...." /> <datasource na

Oracle如何通过dataLink复制远程数据库的CLOB\BLOB字段数据到本地数据库

Oracle不支持直接通过Database Link复制远程数据库表的CLOB/BLOB字段数据到本地数据库. 像如下的SQL是不能执行的.(ipop_topic表有一个CLOB的字段) insert into ipop_topicselect * from [email protected] where application_id=1000 但是,我们可以借助全局临时表,先把数据复制到临时表,再从临时表转移到你的目的表. create global temporary table ipop_

jdbc—CLOB和BLOB

-CLOB(Character Large Object) - 用于存储大量的文本数据 - 大字段有些特殊,不同数据库处理的方式不一样,大字段的操作常常是以流的方式来处理的.而非一般的字段,一次即可读出数据. - Mysql中相关类型 - TINYTEXT最大长度为255(2^8-1)字符的TEXT列 - TEXT(M)最大长度为65535(2^16-1)字符的TEXT列 - MEDIUMTEXT最大长度为16777215(2^24 -1)字符的TEXT列 - LONGTEXT最大长度为4294

Java实现下载BLOB字段中的文件

概述 web项目的文件下载实现:servlet接收请求,spring工具类访问数据库及简化大字段内容获取. 虽然文章的demo中是以sevlet为平台,想必在spring mvc中也有参考意义. 核心代码响应设置和输出 1 public void service(ServletRequest request, final ServletResponse response) 2 throws ServletException, IOException { 3 /* 1. 设置响应内容类型 */

CLOB和BLOB的区别

BLOB和CLOB都是大字段类型,BLOB是按二进制来存储的,而CLOB是可以直接存储文字的.其实两个是可以互换的的,或者可以直接用LOB字段代替这两个.但是为了更好的管理ORACLE数据库,通常像图片.文件.音乐等信息就用BLOB字段来存储,先将文件转为二进制再存储进去.而像文章或者是较长的文字,就用CLOB存储,这样对以后的查询更新存储等操作都提供很大的方便. Hibernate对与Oracle中Clob类型的使用参考自: http://blog.csdn.net/u013120247/a

Oracle的CLOB大数据字段类型（转）

一.Oracle中的varchar2类型我们在Oracle数据库存储的字符数据一般是用VARCHAR2.VARCHAR2既分PL/SQL Data Types中的变量类型,也分Oracle Database中的字段类型,不同场景的最大长度不同. 在Oracle Database中,VARCHAR2 字段类型,最大值为4000:PL/SQL中 VARCHAR2 变量类型,最大字节长度为32767. 当 VARCHAR2 容纳不下我们需要存储的信息时,就出来的Oracle的大数据类型LOB( La

MYSQL BLOB 字段大小以及个数的限制测试。

测试结论 mysql版本 5.1 表类型: innodb, row_format=compact (这是默认的行格式) 插入超过10个blob, blob的数据量很小(<768字节), 插入成功. 插入超过10个blob, blob的数据量很大(>768字节), 插入失败:报 Got error 139 from storage engine. 注意,如果mysql服务器版本是5.1, innodb_file_format选项不存在, 也就无从谈起Barracuda格式. 设置row_form