sqoop概述

sqoop 沟通hdfs和关系型数据库的桥梁,可以从hdfs导出数据到关系型数据库,也可以从关系型数据库导入数据到hdfs
        下载:Apache 提供的工具

安装:
            要求必须有jdk 和 hadoop的支持,并且有版本要求。
            上传到linux中,进行解压
            sqoop可以通过JAVA_HOME找到jdk 可以通过HADOOP_HOME找到hadoop所以不需要做任何配置就可以工作。
            需要将要连接的数据库的驱动包加入sqoop的lib目录下

从关系型数据库导入数据到hdfs:
            sqoop import --connect jdbc:mysql://192.168.1.10:3306/tedu --username root --password 123  --table trade_detail --columns ‘id, account, income, expenses‘
            
            指定输出路径、指定数据分隔符
            sqoop import --connect jdbc:mysql://192.168.1.10:3306/tedu --username root --password 123  --table trade_detail --target-dir ‘/sqoop/td‘ --fields-terminated-by ‘\t‘
            
            指定Map数量 -m
            sqoop import --connect jdbc:mysql://192.168.1.10:3306/tedu --username root --password 123  --table trade_detail --target-dir ‘/sqoop/td1‘ --fields-terminated-by ‘\t‘ -m 2

增加where条件, 注意:条件必须用引号引起来
            sqoop import --connect jdbc:mysql://192.168.1.10:3306/tedu --username root --password 123  --table trade_detail --where ‘id>3‘ --target-dir ‘/sqoop/td2‘

增加query语句(使用 \ 将语句换行)
            sqoop import --connect jdbc:mysql://192.168.1.10:3306/tedu --username root --password 123 --query ‘SELECT * FROM trade_detail where id > 2 AND $CONDITIONS‘ --split-by trade_detail.id --target-dir ‘/sqoop/td3‘

注意:如果使用--query这个命令的时候,需要注意的是where后面的参数,AND $CONDITIONS这个参数必须加上
            而且存在单引号与双引号的区别,如果--query后面使用的是双引号,那么需要在$CONDITIONS前加上\即\$CONDITIONS
            如果设置map数量为1个时即-m 1,不用加上--split-by ${tablename.column},否则需要加上
            
        从hdfs到处数据到关系型数据库:
            sqoop export --connect jdbc:mysql://192.168.8.120:3306/tedu --username root --password 123 --export-dir ‘/td3‘ --table td_bak -m 1 --fields-terminated-by ‘,‘

时间: 2024-10-11 23:23:48

sqoop概述的相关文章

Apache Sqoop - Overview Apache Sqoop 概述

使用Hadoop来分析和处理数据需要将数据加载到集群中并且将它和企业生产数据库中的其他数据进行结合处理.从生产系统加载大块数据到Hadoop中或者从大型集群的map reduce应用中获得数据是个挑战.用户必须意识到确保数据一致性,消耗生产系统资源,供应下游管道的数据预处理这些细节.用脚本来转化数据是低效和耗时的方式.使用map reduce应用直接去获取外部系统的数据使得应用变得复杂和增加了生产系统来自集群节点过度负载的风险. 这就是Apache Sqoop能够做到的.Aapche Sqoop

sqoop产生背景及概述

sqoop产生背景 多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库(RDBMS)中:由于缺乏工具的支持.对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情:Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目: sqoop概述 sqoop是Hive/HDFS/HBase与关系数据库之间 导入和导出工具 sqoop: SQL-to-Hadoop1)连接传统关系型数据库和Hadoop的桥梁: 把关系型数据的数据导入到Hadoop与其

Sqoop使用手册

原文:http://www.cnblogs.com/xiaodf/p/6030102.html#42 1 Sqoop概述 2 版本说明 3 驱动安装 3.1 MySQL 4 基本用法 4.1 导入 4.1.1 保护密码 4.1.2 使用其他文件格式 4.1.3 压缩导入的数据 4.1.4 提高传输速度 4.1.5 自定义类型映射 4.1.6 并行控制 4.1.7 对NULL值进行编码 4.1.8 导入所有表 4.2 增量导入 4.2.1 只导入细腻数据 4.2.2 增量导入可变数据 4.2.3

大数据学习之sqoop框架 25

1:Sqoop概述 1)官网 http://sqoop.apache.org/ 2)场景 传统型缺点,分布式存储.把传统型数据库数据迁移. Apache Sqoop(TM)是一种用于在Apache Hadoop和结构化数据存储(如关系数据库)之间高效传输批量数据的工具 . 2:Sqoop安装部署 1)下载安装包 2)解压 tar -zxvf .tar 3)修改配置 vi sqoop-env.sh export HADOOP_COMMON_HOME=/root/training/hadoop-2.

寒假记录十二

Sqoop概述 Sqoop是一款开源的工具,主要用于在Hadoop生态系统(Hadoop.Hive等)与传统的数据库(MySQL.Oracle等)间进行数据的传递,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中. Sqoop导入原理: 在导入开始之前,Sqoop使用JDBC来检查将要导入的表.他检索出表中所有的列以及列的SQL数据类型.这些SQL类型(varchar.integer)被映射到Java数据类型(String.Integer等

Sqoop数据迁移工具

一.概述 sqoop 是 apache 旗下一款" Hadoop 和关系数据库服务器之间传送数据"的工具. 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS. HIVE. HBASE 等数据存储系统:    导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mysql 等    Sqoop 的本质还是一个命令行工具,和 HDFS, Hive 相比,并没有什么高深的理论. 二.工作机制 将导入或导出命令翻译成 mapreduce 程序来实现   

sqoop 中文手册

1.     概述 本文档主要对SQOOP的使用进行了说明,参考内容主要来自于Cloudera SQOOP的官方文档.为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到. 2.     codegen 将关系数据库表映射为一个java文件.java class类.以及相关的jar包,作用主要是两方面: 1.  将数据库表映射为一个Java文件,在该Java文件中对应有表的各个字段. 2.  生成的Jar和class文件在metastore功能使用时会

sqoop数据迁移

3.1 概述 sqoop是apache旗下一款"Hadoop和关系数据库服务器之间传送数据"的工具. 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统: 导出数据:从Hadoop的文件系统中导出数据到关系数据库 3.2 工作机制 将导入或导出命令翻译成mapreduce程序来实现 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制 3.3 sqoop实战及原理 3.3.1 sqoop安装

sqoop数据迁移(基于Hadoop和关系数据库服务器之间传送数据)

1:sqoop的概述: (1):sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具.(2):导入数据:MySQL,Oracle导入数据到Hadoop的HDFS.HIVE.HBASE等数据存储系统:(3):导出数据:从Hadoop的文件系统中导出数据到关系数据库 (4):工作机制: 将导入或导出命令翻译成mapreduce程序来实现: 在翻译出的mapreduce中主要是对inputformat和outputformat进行定制: (5):Sqoop的原理: Sq