sqoop的数据抽取过程记录

今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle----hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了overwirte就是覆盖,没加这个关键字默认是追加。每次追加hdfs的文件会被转移到hive的 hdfs目录下。

时间: 2024-08-07 04:28:39

sqoop的数据抽取过程记录的相关文章

记录sqoop同步失败问题解决过程,过程真的是很崎岖。(1月6日解决)

记录sqoop同步失败问题解决过程,过程真的是很崎岖.事发原因:最近突然出现sqoop export to mysql时频繁出错.看了下日志是卡在某条数据过不去了,看异常.看sqoop生成的mr并未发现问题.最后把要export的原始数据拿notepad++打开发现中断的数据是奇怪的乱码,查了一下是二进制的数据. 乱码数据生成原因:我理解,api接口时接收流数据时长度和实际长度不符. 解决办法:两块要解决,一是接口时做好容错,二是同步时还是要对这种二进制做兼容,因为谁也无法保证二进制数据不会再出

初始化数据抽取、初始条件与增量条件

声明:原创作品,转载时请注明文章来自SAP师太技术博客( 博/客/园www.cnblogs.com):www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将追究法律责任!原文链接:http://www.cnblogs.com/jiangzhengjun/p/4297069.html (注:非后勤模块信息包不能选择下面第三种初始化方式: ) 初始化的过程会做的三件事: 1.加载初始数据 2.打初始标记(主要记录初始化时数据过滤条件是什么,在增量抽取时使用

《BI项目笔记》增量ETL数据抽取的策略及方法

增量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据.在ETL使用过程中.增量抽取较全量抽取应用更广.如何捕获变化的数据是增量抽取的关键.对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到:性能,不能对业务系统造成太大的压力,影响现有业务.目前增量数据抽取中常用的捕获变化数据的方法有:a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入.修改.删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线

BI项目中的ETL设计详解(数据抽取、清洗与转换 )

ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败.ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据. ETL的设计分三部分:数据抽取.数据的清洗转换.数据的加载.在设计ETL的时候也是从这三部分出发.数据的抽取是从各个不同的数据源抽取到ODS中(这个过程也可以做一些数据的清洗和转换),在抽取的过程中需要挑选不同的抽取方法,尽可能的提高ETL的运行效率.ETL三个部

sqoop关系型数据迁移原理以及map端内存为何不会爆掉窥探

序:map客户端使用jdbc向数据库发送查询语句,将会拿到所有数据到map的客户端,安装jdbc的原理,数据全部缓存在内存中,但是内存没有出现爆掉情况,这是因为1.3以后,对jdbc进行了优化,改进jdbc内部原理,将数据写入磁盘存储了. 原文和作者一起讨论: http://www.cnblogs.com/intsmaze/p/6775034.html 微信:intsmaze Sqoop是apache旗下一款"Hadoop和关系数据库服务器之间传送数据"的工具.Sqoop架构非常简单,

什么是数据抽取

什么是数据抽取 数据抽取是指从源数据源系统抽取目的数据源系统需要的数据.实际应用中,数据源较多采用的是关系数据库. [编辑] 数据抽取的方式 (一) 全量抽取 全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数 据库中抽取出来,并转换成自己的ETL 工具可以识别的格式.全量抽取比较简单. (二) 增量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据.在ETL 使用过程中,增量抽取较全量抽取应用更广.如何捕获变化的数据是增量抽取的关键.对捕获方法一般

1.131.15 Sqoop导出数据Export使用

一.export 1.export概述 export工具将一组文件从HDFS导入到RDBMS.目标表必须已经存在于数据库中.根据用户指定的分隔符读取输入文件并将其解析为一组记录, 只有map: [[email protected] sqoop-1.4.5-cdh5.3.6]# bin/sqoop help export sqoop-export有三种模式: 默认模式:将它们转换为一组将INSERT语句注入数据库的语句. 更新模式:Sqoop将生成UPDATE替换数据库中现有记录的语句. 调用模式

财务模块数据抽取

声明:原创作品,转载时请注明文章来自SAP师太技术博客:www.cnblogs.com/jiangzhengjun,并以超链接形式标明文章原始出处,否则将追究法律责任!原文链接:http://www.cnblogs.com/jiangzhengjun/p/4296810.html 财务模块没有 Setup Table设置表.Extracties Queue抽取队列.Update Table更新表 这些概念,因为财务模块采用的时间戳来实现的,Pull拉的方式抽数,抽数的过程不需要经过这些中间临时缓

ETL数据抽取

1.ETL:数据抽取 2.抽取数据在不同的数据源之间,把数据进行转化,加载,清洗操作,保证抽取的数据合法. 3.开源实现:Kettle 工具 ==================================================================== 学习: 大家可以学学这个Kettle 工具,通过借鉴这个工具,我们可以自己设计自己的ETL过程,工具很好用,官方自带一些例子:ata-integration\samples. ======================