Sqoop学习笔记_Sqoop的基本使用一

Sqoop

 

关系DB与Hive/HDFS/HBase导入导出的Mapreduce框架。

http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.4-cdh5.1.0/SqoopUserGuide.html

 

ETL: Extraction-Transformation-Loading的缩写,数据提取、转换(业务处理)和加载。

文件数据源:hive load命令

关系DB数据源:sqoop抽取

Sqoop import数据到HDFS/Hive/Hbase-->业务处理--->Sqoop export数据到关系数据库

Sqoop import   从关系数据库抽取到HDFS

Sqoop export    HDFS导回到关系数据

二、Sqoop Linux下开发的步骤

Mysql Jdbc驱动放到SQOOP_HOME/lib

放lib的目录(eg:cd /opt/cloudera/parcels/CHD/lib/sqoop/lib,有时候master和slave节点都要存放此lib) 

1、Sqoop 基本导入和导出讲解(command line方式)

sqoop import --connect jdbc:mysql://master:3306/test \   (此句是配置mysql路径,linux下一行未完结要加上反斜杠)

--username root --password 123456 --table rpt_sale_daily \ (配置mysql的帐号和密码和table表名)

--columns "dateid,huodong,pv,uv" \ (配置table抽取的字段)

--where “dateid=‘2015-08-28‘”  \ (表抽取查询条件)

--target-dir sqoop/rpt_sale_daily \ (表抽取存放目标位置)

-m 1 (sqoop抽取要启动的map数量,如果抽取量多的话可以适当调节map的数量)

Sqoop import(抽取)需要注意:

抽取到target-dir ,列用逗号分隔;

抽取到hive表时,会根据hive表的列分隔符自动匹配。

2.利用sqoop --options也可以进行sqoop抽取但是不支持往数据里面传参数

sqoop --options-file ./test.opt  不支持往opt文件里传参数。(shell脚本方式)

先写好执行文件test.opt

在shell脚本里写好执行sqoop执行opt文件命令

执行命令

相比下command line的方式会比较好,因为可以利用shell脚本进行传参。不过还是过于麻烦

时间: 2024-10-11 15:31:19

Sqoop学习笔记_Sqoop的基本使用一的相关文章

Sqoop学习笔记——关系数据库与hdfs间数据迁移

一.安装: 上传到hadoop集群的某一个节点上,将sqoop压缩包解压即可直接使用: 二.配置: 将需要连接的数据库(比如Oracle.MySQL)的连接驱动拷贝到 sqoop目录的lib里: 三.配置mysql远程连接 GRANT ALL PRIVILEGES ON ekp_11.* TO 'root'@'192.168.1.10' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIVILEGES; GRANT ALL PRIVILEGES

Hadoop学习笔记—18.Sqoop框架学习

一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易.Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop.随着Hadoop和关系型数据库之间的数据移动渐渐变成一个标准的流程,云管理员们能够利用Sqoop的并行批量数据加载能力来简化这一流程,降低编写自定义数据加载脚本的需求. Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与

Hadoop学习笔记目录

Hadoop 运行环境准备 运行环境部署结构介绍 Linux CentOS6.5安装(Hadoop环境配置) Linux 常用远程管理工具介绍 SSH免密码登录配置 Hadoop安装及配置 Hadoop验证-WordCount执行 Hadoop开发工具准备 Hadoop Eclipse Plugin 配置安装及验证 Hadoop Studio 使用 Hadoop简介及应用场景分析 HDSF MapReduce Hive HBase Mahout Zookeeper Avro Sqoop 监控 整

01_Hadoop学习笔记内容说明

Hadoop学习笔记内容说明_00 1.  观看云帆大数据梦琪老师的<企业级 Hadoop 1.x 应用开发基础课程>2014年4月左右版本. 2.  博客是在梦琪老师的随堂笔记上改动的,方便的是自己以后回顾学习,也或许能给需要改方面帮助的同行提供些许帮助,在此非常感谢梦琪老师. 3.  本系列是在CentOS6.4+hadoop1.2.1上实验通过的. 4.  由于本人刚刚接触,对Linux也只是初步了解,实验过程中遇到比较奇葩的问题,也在此博客写出. 5.  云帆大数据官网公布了一些公开的

Linux Shell 学习笔记

2.return与exit区别 return 表示从被调函数返回到主调函数继续执行,返回时可附带一个返回值,由return后面的参数指定,当然如果是在主函数main, 自然也就结束当前进程了,如果不是,那就是退回上一层调用. exit(0)表示正常退出执行程序,如果加其它的数值:1,2,....可以表示由于不同的错误原因而退出 . main函数中exit(0)等价于return 0. 1. Linux下一条命令或一个进程执行完成会返回一个一个状态码. 0 === 成功执行 非0 === 执行过程

vector 学习笔记

vector 使用练习: /**************************************** * File Name: vector.cpp * Author: sky0917 * Created Time: 2014年04月27日 11:07:33 ****************************************/ #include <iostream> #include <vector> using namespace std; int main

Caliburn.Micro学习笔记(一)----引导类和命名匹配规则

Caliburn.Micro学习笔记(一)----引导类和命名匹配规则 用了几天时间看了一下开源框架Caliburn.Micro 这是他源码的地址http://caliburnmicro.codeplex.com/ 文档也写的很详细,自己在看它的文档和代码时写了一些demo和笔记,还有它实现的原理记录一下 学习Caliburn.Micro要有MEF和MVVM的基础 先说一下他的命名规则和引导类 以后我会把Caliburn.Micro的 Actions IResult,IHandle ICondu

jQuery学习笔记(一):入门

jQuery学习笔记(一):入门 一.JQuery是什么 JQuery是什么?始终是萦绕在我心中的一个问题: 借鉴网上同学们的总结,可以从以下几个方面观察. 不使用JQuery时获取DOM文本的操作如下: 1 document.getElementById('info').value = 'Hello World!'; 使用JQuery时获取DOM文本操作如下: 1 $('#info').val('Hello World!'); 嗯,可以看出,使用JQuery的优势之一是可以使代码更加简练,使开

[原创]java WEB学习笔记93:Hibernate学习之路---Hibernate 缓存介绍,缓存级别,使用二级缓存的情况,二级缓存的架构集合缓存,二级缓存的并发策略,实现步骤,集合缓存,查询缓存,时间戳缓存

本博客的目的:①总结自己的学习过程,相当于学习笔记 ②将自己的经验分享给大家,相互学习,互相交流,不可商用 内容难免出现问题,欢迎指正,交流,探讨,可以留言,也可以通过以下方式联系. 本人互联网技术爱好者,互联网技术发烧友 微博:伊直都在0221 QQ:951226918 -----------------------------------------------------------------------------------------------------------------