Sqoop的安装与测试

【部署安装】

# Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

# 部署Sqoop到13.33,参考文档:

Sqoop安装配置及演示

http://www.micmiu.com/bigdata/sqoop/sqoop-setup-and-demo/

# Sqoop只需要部署一份,目前部署在13.33,和HadoopMaster一台机器。

【Mysql到HDFS】

# 测试同步mysql数据到HDFS:

sqoop import --connect jdbc:mysql://192.168.12.210/zhangsp --username hive --password 123456 --table test20141105 --warehouse-dir /user/sqoop/12_210 --split-by col1

常用参数说明:

# 默认设置下导入到hdfs上的路径是: /user/username/tablename/(files),比如我的当前用户是hadoop,那么实际路径即:/user/hadoop/demo_blog/(files)。

# 如果要自定义路径需要增加参数:--warehouse-dir,例如:--warehouse-dir /user/sqoop/12_210

# 无主键表的导入需要增加参数  --split-by xxx  或者 -m 1

【Oracle到HDFS】

-- 查看Oracle数据表

sqoop list-tables --connect jdbc:oracle:thin:@192.168.12.222:1521:edu --username edu --password=jyedu

-- 同步到一个HDFS文件

sqoop import --append --connect jdbc:oracle:thin:@192.168.12.222:1521:edu --username edu --password jyedu --target-dir /user/sqoop/12_222_edu/t_ssync_database  --num-mappers 1 --table t_ssync_database
--columns DB_ID,DB_NAME,DB_DESCRIPTION,DB_TYPE,STATUS,CREATE_DATE --fields-terminated-by ‘\t‘

-- 同步到多个HDFS文件

sqoop import --append --connect jdbc:oracle:thin:@192.168.12.222:1521:edu --username edu --password jyedu --target-dir /user/sqoop/12_222_edu/t_ssync_database_distribute  --num-mappers 5 --table
t_ssync_database --columns DB_ID,DB_NAME,DB_DESCRIPTION,DB_TYPE,STATUS,CREATE_DATE --fields-terminated-by ‘\t‘  --split-by DB_ID

【Oracle到HBase】

Sqoop之Oracle2HBase

http://f.dataguru.cn/forum.php?mod=viewthread&tid=126765

sqoop import --connect jdbc:oracle:thin:@192.168.12.222:1521:edu --username edu --password jyedu --table  t_ssync_database --hbase-create-table --hbase-table h_t_ssync_database --column-family
cf_database --hbase-row-key DB_ID -m 1 --columns DB_ID,DB_NAME,DB_DESCRIPTION,DB_TYPE,STATUS,CREATE_DATE

【Oracle到Hive】

sqoop import --hive-import --hive-overwrite --hive-table hive_t_ssync_database --connect jdbc:oracle:thin:@192.168.12.222:1521:edu --username edu --password jyedu -m 2 --split-by DB_ID --columns
DB_ID,DB_NAME,DB_DESCRIPTION,DB_TYPE,STATUS,CREATE_DATE --table t_ssync_database

Sqoop工具使用(二)--从oracle导入数据到hive

http://www.xingxingge.com/Hadoop/148.html

时间: 2024-11-06 13:52:04

Sqoop的安装与测试的相关文章

【sqoop】安装配置测试sqoop1

1.1.1 下载sqoop1:sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 1.1.2 解压并查看目录: [[email protected] ~]$ tar -zxvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz --解压 [[email protected] ~]$ cd sqoop-1.4.7.bin__hadoop-2.6.0 [[email protected] sqoop-1.4.7.bin__hadoop-2.6.0]$ l

Sqoop环境安装

环境下载 首先将下载的 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz放到 /usr/hadoop/目录下(该目录可以自定义,一般为Hadoop集群安装目录),然后对安装包解压.修改文件名和修改用户权限. [[email protected] /]$ cd /usr/hadoop/ [[email protected] hadoop]$ ls flume hadoop-2.6.0 [[email protected] hadoop]$ rz //上传安装包

Sqoop的安装和验证

Sqoop是一个用来完成Hadoop和关系型数据库中的数据相互转移的工具,它可以将关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中. Kafka是一个开源的分布式消息订阅系统 一.Sqoop的安装 1.http://www-eu.apache.org/dist/sqoop/1.4.7/下载sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz并解压到/home/jun下 [[email protected] sqoop-1.4.7.

mosquitto在Linux环境下的部署/安装/使用/测试

mosquitto在Linux环境下的部署 看了有三四天的的源码,(当然没怎么好好看了),突然发现对mosquitto的源码有了一点点感觉,于是在第五天决定在Linux环境下部署mosquitto. 使用传统源码安装步骤: 步骤1:http://mosquitto.org/files/source/官网下载源码,放到Linux环境中.解压后,找到主要配置文件config.mk,其中包含mosquitto的安装选项,需要注意的是,默认情况下mosquitto的安装需要OpenSSL(一个强大的安全

Etcd学习(一)安装和测试

Etcd是一个比较新的分布式协调框架,现在才只到0.4.6版本,还没发布1.0版本 从网上搜etcd关键字,基本上就只能看到"开源中国"的介绍: etcd 是一个高可用的 Key/Value 存储系统,主要用于分享配置和服务发现.etcd 的灵感来自于 ZooKeeper 和 Doozer,侧重于: 简单:支持 curl 方式的用户 API (HTTP+JSON) 安全:可选 SSL 客户端证书认证 快速:单实例可达每秒 1000 次写操作 可靠:使用 Raft 实现分布式 Etcd

【MYSQL系列】【基础版】第一章 MYSQL的安装以及测试

1. MYSQL的安装以及测试     1.1 什么是数据库,有什么作用,以及有哪些特点         1.1.1 Database,DB,是一个数据的仓库:         1.1.2 用于保存.管理数据         1.1.3 特点:             1.1.3.1 一致性.完整性             1.1.3.2 降低冗余(重复)             1.1.3.3 应用的共享,以及有组织         1.1.4 数据仓库: 偏向于数据分析,是数据挖掘的一种  

Hadoop2.2.0多节点分布式安装及测试

众所周知,hadoop在10月底release了最新版2.2.很多国内的技术同仁都马上在网络上推出了自己对新版hadoop的配置心得.这其中主要分为两类: 1.单节点配置 这个太简单了,简单到只要懂点英语,照着网上说的做就ok了.我这里不谈这个,有兴趣的童鞋可以自己去问度娘和谷哥- 2.多节点配置 这个就是我要重点说明的,老实说网络上说的的确是多节点,但不是真正的分布式部署- 我们为什么要用hadoop?因为hadoop是一个分布式系统基础架构,我们可以在不了解分布式底层细节的情况下,开发分布式

OpenCV安装和测试

参考链接:http://blog.csdn.net/bruce_zeng/article/details/7961153 OpenCv下载链接:http://sourceforge.net/projects/opencvlibrary/files/opencv-win/2.2/ 下载的是 OpenCV-2.2.0-win32-vs2010.exe,傻瓜式安装.安装过程中勾选"Add OpenCV to system PATH for all users"选项.或者安装完后自己添加环境变

mycat安装和测试

mycat安装和测试 一.  环境准备 本机环境是三台centos6.5 IP 主机名 数据库名 安装软件 192.168.17.4 master db1 mycat,mysql 192.168.17.5 slave1 db2 mysql 192.168.17.6 slave2 db3 mysql 二.  安装mysql 1.安装mysql软件 linux下安装mysql有两种方式:一种是通过下载源码编译安装,一种是通过rpm包安装,如果配置了yum直接用yum安装会更快 编译安装步骤: ./c