sqoop clob从Oracle导入到hive 回车换行导致记录增多

sqoop import --hive-import --hive-overwrite --connect jdbc:oracle:thin:@192.168.92.136:1521:cyporcl --username ODS --password ‘od154DS$!(‘ -m 1 --hive-database ODS --table Q_TRA_DISPUTESTATUS --fields-terminated-by ‘\001‘ --hive-drop-import-delims --null-string ‘\\N‘ --null-non-string ‘\\N‘ --map-column-java DISPUTERESULT=String

DISPUTERESULT 这个字段是Oracleclob 类型的，里面有回车，加载到hive 里面导致记录增多。

--map-column-java和--map-column-hive两个参数都要显示给出；还需要设置--hive-drop-import-delims这样才能顺利导出数据。

.导入的列有换行符如何解决
本以为万事大吉，万万没想到导入的列有nclob类型，里面存储了一篇篇文章，势必有着换行符。果不其然，hive查询数据全部错乱，查询资料发现--hive-delims-replacement（替换/n,/r等符号用你指定的字符）和--hive-drop-import-delims参数。可添加上去发现并没有什么卵用，没有起作用。百度goole很久，终于发现一篇帖子，http://stackoverflow.com/questions/28076200/hive-drop-import-delims-not-removing-newline-while-using-hcatalog-in-sqoop
意思是要用--map-column-java参数来显示指定列为String类型。我的解决方案为 --map-column-java 我的CLOB列=String 果然，问题解决，换行符全部被去掉。不过听说改变存储格式或许也可以避免这个问题，希望有着经验的大神来回答一下。总结下来就这么多，希望能帮助大家

时间： 2024-10-07 15:37:41

sqoop clob从Oracle导入到hive 回车换行导致记录增多的相关文章

sqoop操作之ORACLE导入到HIVE

导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \ --username SCOTT --password tiger \ --table EMP \ --hive-import --create-hive-table --hive-table emp -m 1; 如果报类似的错: ERROR tool.ImportTool: Encountered IOException running imp

sqoop操作之Oracle导入到HDFS

导入表的所有字段 sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \ --username SCOTT --password tiger \ --table EMP -m 1; 查看执行结果: hadoop fs -cat /user/hadoop/EMP/part-m-00000 7369,SMITH,CLERK,7902,1980-12-17 00:00:00.0,800,null,20 7499,ALLEN,

使用 sqoop 将mysql数据导入到hive（import）

Sqoop 将mysql 数据导入到hive(import) 1.创建mysql表 CREATE TABLE `sqoop_test` ( `id` int(11) DEFAULT NULL, `name` varchar(255) DEFAULT NULL, `age` int(11) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 插入数据 2.hive 建表 hive> create external table sqoop_test

使用Talend Open Studio将数据从oracle导入到hive中

先使用Tos建立模型,将Oracle中的数据导入到本地: build job后,形成独立可以运行的程序: 将生成的zip文件,上传到hadoop集群上,有hive环境的机器上: [[email protected] work]$ ls file.zip jobInfo.properties join lib [[email protected] work]$ cd join/ [[email protected] join]$ ls bigdatademo items join_0_1.jar

使用sqoop将mysql数据导入到hive中

首先准备工具环境:hadoop2.7+mysql5.7+sqoop1.4+hive3.1 准备一张数据库表: 接下来就可以操作了... 一.将MySQL数据导入到hdfs 首先我测试将zhaopin表中的前100条数据导出来,只要id.jobname.salarylevel三个字段. 再Hdfs上创建目录 hadoop fs -mkdir -p /data/base #用于存放数据我们cd到sqoop目录下执行命令 # \ 用于换行bin/sqoop import --connect jdbc

使用sqoop1.4.4从oracle导入数据到hive中错误记录及解决方案

在使用命令导数据过程中,出现如下错误 sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb --username NAME --passord PASS --verbose -m 1 --table T_USERINFO 错误1:File does not exist: hdfs://opt/sqoop-1.4.4/lib/commons-io-1.4.jar FileNotFoundEx

HDFS、Hive、MySQL、Sqoop之间的数据导入导出（强烈建议去看）

Hive总结(七)Hive四种数据导入方式 (强烈建议去看) Hive几种数据导出方式 https://www.iteblog.com/archives/955 (强烈建议去看) 把MySQL里的数据导入到HDFS 1.使用MySQL工具手工导入把MySQL的导出数据导入到HDFS的最简单方法就是,使用命令行工具和MySQL语句. 为了导出整个数据表或整个数据库的内容,MySQL提供了mysqldump工具. 比如 SELECT col1,col2 FORM TABLE INTO OUTFI

Talend 将Oracle中数据导入到hive中,根据系统时间设置hive分区字段

首先,概览下任务图: 流程是,先用tHDFSDelete将hdfs上的文件删除掉,然后将oracle中的机构表中的数据导入到HDFS中:建立hive连接->hive建表->tJava获取系统时间->tHiveLoad将hdfs上的文件导入到hive表中. 下面介绍每一个组件的设置: tHDFSDelete_1: 机构: tHDFSOutput_1: hive: tHiveCreateTable: tJava_1: tHiveLoad_1: 在Context下面建一个内容变量: 这个内容变

sqoop 整库导入数据hive

1.整库导入 sqoop import-all-tables --connect jdbc:mysql://ip:3306/dbname --username user --password password --hive-database abc -m 10 --create-hive-table --hive-import --hive-overwrite import-all-tables :导入所有表 --connect :连接的url地址 --username:mysql用户

猜你喜欢

Effective C++ 笔记

无参构造函数如何暴躁的构造. 先来看看标准的raw_memory : void *intRawVar = operator new[](5*sizeof(int)); // create int ra ...

2017年了

晚上思考一下,2016年我都做了些什么随笔画

U3D屏幕坐标，世界坐标，像素坐标之间的关系

U3D中,屏幕坐标和世界坐标单位一样,二者之间是直接的一一对应关系,不受屏幕分辨率影响.默认情况下屏幕空间画布的左下角坐标是世界原点(0,0,0),这种情形下,世界空间的点(1920,1080,任何值 ...

论文总结

硕士论文总结前两个半月一直在写论文,到今天为止终于搞定.本文描述了两个多月来取得的经验教训. 一.格式编写论文之前,最后首先根据论文要求建立一套样式,这套样式最好包括标题一到标题四的格式和论文格式 ...

（HDU）1323 --Perfection （完美）

题目链接:http://vjudge.net/problem/HDU-1323 大概就是给你一个数字,让你找出它和自身所有因子和的关系. 这题输出格式很坑爹,PE了好几次,注意"两个空格&q ...

服务器硬件监控转载：

转载:http://nolinux.blog.51cto.com/4824967/1664664 前一周上架服务器,本来准备把针对服务器的硬件监控这一部分总结下成文,结果过个端午给过忘了...今天就又 ...

python解析命令行

可以解析这样的命令 ./cron_ctrl jobname1 --stop ;./cron_ctrl jobname1 --start;./cron_ctrl jobname1 --list #!/u ...

浅谈实际分辨率与逻辑分辨率实现像素与尺寸的准确转换

[实例] 最近做了一个视力检测的APP项目,其中用到了将像素转换为实际大小,经过研究学到了一些知识,在这里和大家分享一下. 实现步骤为: 首先获取物理参数: 1.手机的像素密度(1英寸=x像素) dp ...

通用ajax请求方法封装，兼容主流浏览器

ajax简介没有AJAX会怎么样?普通的ASP.Net每次执行服务端方法的时候都要刷新当前页面.如果没有AJAX,在youku看视频的过程中如果点击了"顶.踩".评论.评论翻页, ...

RabbitMQ基本管理（上）

1.1.2 显示RabbitMQ进程查看RabbitMQ进程信息,输入下面命令: <span style="font-size:18px;"><strong& ...

fzu 2105 Digits Count 线段树

题目链接:http://acm.fzu.edu.cn/problem.php?pid=2105 题意: 给出一个数组A[0]-A[n-1],每个数最大是16.有4种操作: AND opn L R:L- ...

mysqk备份恢复

MYSQL备份恢复 MySQL备份一般采取全库备份加日志备份的方式. 1.binlog mysql的二进制日志记录着该数据库的所有增删改的操作日志, 可以使用mysqlbinlog命令来查看. 默认关 ...

LeetCode | HouseCode 算法题

题目: You are a professional robber planning to rob houses along a street. Each house has a certain am ...

CircleIndicator

https://github.com/eltld/CircleIndicator

关于计算机图形学上机考试雪崩的反思。。

那么我首先要说一些技术之外的事情.. 那就是我拿了笔记本但是却没有拿鼠标..以前上图形学实验也犯过这个错误..离开了鼠标.. 我工作效率基本要降一大半.. 然后就是上机.. 那么由于没有鼠标..我总是 ...

ambari+hdp安装

Yun2集群上Ambari+HDP安装 1. 安装环境说明: 系统版本:CentOS7 安装版本: Ambari版本:2.2.2.0 HDP版本:2.4.2.0 集群机器: Ambari Server ...

七. 多线程编程7.线程优先级

线程优先级被线程调度用来判定何时每个线程允许运行.理论上,优先级高的线程比优先级低的线程获得更多的CPU时间.实际上,线程获得的CPU时间通常由包括优先级在内的多个因素决定(例如,一个实行多任务处理的 ...

Session、SessionId和Cookie的关系

Session是保存在服务器中的,SessionId是保存在Cookie中的. 当用户·登录时候,系统会将"用户名"和"密码"保存到Session中,系统会给每 ...

第21章策略模式（Strategy Pattern）

原文第21章策略模式(Strategy Pattern) 策略模式导读:策略模式看完之后,大多数人都会感觉有点混了,包括我,感觉策略模式是一种OO思想的体现(纯属个人拙见). 概述: 策略模 ...

LinuxCentOS中使用SQL*Plus启动和关闭数据库

启动和关闭数据库的常用工具有三个一.SQL*Plus 在SQL*Plus环境中,用户以SYSDBA身份连接到Oracle后,可以通过命令行方式启动或关闭数据库. 二.OEM(企业管理器) 利用OEM ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.021 s.