sqoop产生背景及概述

sqoop产生背景 
多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库(RDBMS)中;由于缺乏工具的支持、对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情;Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目;

sqoop概述

sqoop是Hive/HDFS/HBase与关系数据库之间 导入和导出工具

sqoop: SQL-to-Hadoop
1)连接传统关系型数据库和Hadoop的桥梁;
  把关系型数据的数据导入到Hadoop与其相关的系统(如HBase、Hive)中;
  把数据从Hadoop系统里抽取并导出到关系型数据库中;
2)利用MapReduce加快数据传输速度;
3)批处理方法进行数据传输;

为什么选择sqoop
1)高效、可控地利用资源:任务并行
2)数据类型映射与转换:可自动转换,用户也可自定义
3)支持多种数据库:MySQL、Oracle、PostgreSQL

sqoop的数据源常用的有两种
1)文本文件,如日志文件
2)关系型数据库

sqoop-import : 从关系型数据库抽取数据到HDFS/HIVE/HBASE
sqoop-export : 从HDFS将数据导出到关系型数据库

在导入或者导出的时候使用到的表名或者字段名推荐用大写

说明:sqoop的导入导出操作的出发点是HDFS/HIVE/HBASE等,而不是关系型数据库

后续sqoop案例操作以oracle自带的emp和dept表做为数据源

sqoop产生背景及概述

时间: 2024-10-11 22:16:27

sqoop产生背景及概述的相关文章

css中background背景属性概述

background:url(背景图片路径) no-repeat;/*不重复默认在左上方*/ background:url(背景图片路径) no-repeat center;/*不重复背景图片中间显示*/ background:url(背景图片路径) no-repeat bottom center;/*不重复背景图片底部中间显示*/ background:url(背景图片路径) no-repeat right top;/*不重复背景图片右上方显示*/ background:url(背景图片路径)

Sqoop 产生背景

Sqoop 的产生主要源于以下几种需求: 1.多数使用 Hadoop 技术处理大数据业务的企业,有大量的数据存储在传统的关系型数据库(RDBMS)中. 2.由于缺乏工具的支持,对 Hadoop 和 传统数据库系统中的数据进行相互传输是一件十分困难的事情. 3.基于前两个方面的考虑,亟需一个在 RDBMS 与 Hadoop 之间进行数据传输的项目.

Apache Hadoop YARN: 背景及概述

从2012年8月开始Apache Hadoop YARN(YARN = Yet Another Resource Negotiator)成了Apache Hadoop的一项子工程.自此Apache Hadoop由下面四个子工程组成: Hadoop Comon:核心库,为其他部分服务 Hadoop HDFS:分布式存储系统 Hadoop MapReduce:MapReduce模型的开源实现 Hadoop YARN:新一代Hadoop数据处理框架 概括来说,Hadoop YARN的目的是使得Hado

Apache Sqoop - Overview Apache Sqoop 概述

使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理.从生产系统加载大块数据到Hadoop中或者从大型集群的map reduce应用中获得数据是个挑战.用户必须意识到确保数据一致性,消耗生产系统资源,供应下游管道的数据预处理这些细节.用脚本来转化数据是低效和耗时的方式.使用map reduce应用直接去获取外部系统的数据使得应用变得复杂和增加了生产系统来自集群节点过度负载的风险. 这就是Apache Sqoop能够做到的.Aapche Sqoop

CSS背景background、background-position使用详解

背景(background)是css中一个重要的的部分,也是需要知道的css的基础知识之一.这篇文章将会涉及css背景(background)的基本用法,包括诸如 background-attachment 等的属性,也会介绍一些有关背景(background)的常用技巧,以及 css3 中的 背景(background)(包含4个新的背景(background)属性). css2 中的背景(background) 概述 CSS2 中有5个主要的背景(background)属性,它们是: * p

sqoop 数据迁移

sqoop 数据迁移 1 概述 sqoop是apache旗下一款"Hadoop和关系数据库服务器之间传送数据"的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统. 导出数据:从Hadoop的文件系统中导出数据到关系数据库. 2 工作机制 将导入或导出命令翻译成mapreduce程序来实现. 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制. 3 sqoop 安装 安装sqoop的

浅谈sqoop

1.sqoop的概述a.sqoop 是一款工具,是appche 旗下的一款工具,主要是负责 hadoop与RDBMS之间的数据迁移,即从hadoop 文件系统 导出数据到RDBMS,从RDBMS导入数据到hadoop hdfs,hive,hbase等数据存储系统.b.其实就是将 sqoop命令转换成MR程序来完成数据的迁移.c.本质就是执行和计算,依赖于hdfs存储数据,把sql转换成程序. 2.sqoop的工作机制将导入或导出命令翻译成 MapReduce 程序来实现 在翻译出的 MapRed

Hadoop大数据零基础高端实战培训视频

<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量: 300课时 用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询QQ:779591710 下载地址: 链接:http://pan.baidu.com/share/link?shareid=3299239734&uk=3289559542 密码:8tkb 第一阶段:Hadoop基础篇(50课时) - 千里之行,始于足下(赠送课

基于Hadoop2.0、YARN技术的大数据高阶应用实战(Hadoop2.0\YARN\Ma

Hadoop的前景 随着云计算.大数据迅速发展,亟需用hadoop解决大数据量高并发访问的瓶颈.谷歌.淘宝.百度.京东等底层都应用hadoop.越来越多的企 业急需引入hadoop技术人才.由于掌握Hadoop技术的开发人员并不多,直接导致了这几年hadoop技术的薪水远高于JavaEE及 Android程序员. Hadoop入门薪资已经达到了8K以上,工作1年可达到1.2W以上,具有2-3年工作经验的hadoop人才年薪可以达到30万—50万. 一般需要大数据处理的公司基本上都是大公司,所以学