使用sqoop 在关系型数据库和Hadoop之间实现数据的抽取

(一)从关系型数据库导入至HDFS

1.将下面的参数保持为 import.script

import

--connect
jdbc:mysql://192.168.1.14:3306/test
--username
root
--password
1234

-m
1
--null-string
‘‘
--table
user
--columns
"id,username,age"
--target-dir
/user/root/sqoop_test  -- 此目录不能存在

2. 执行sqoop --options-file ./import.script 

(二)从HDFS 导入至关系型数据库

1.将下面的参数保持为 export.script

export
--connect
jdbc:mysql://192.168.1.14:3306/test
--username
root
--password
1234

--null-string
‘‘
--table
user
--columns
"id,username,age"
--export-dir
/user/root/sqoop_test

2. 执行sqoop --options-file ./import.script 

时间: 2024-10-27 17:40:01

使用sqoop 在关系型数据库和Hadoop之间实现数据的抽取的相关文章

sqoop实现关系型数据库与hadoop之间的数据传递-import篇

由于业务数据量日益增长,计算量非常庞大,传统的数仓已经无法满足计算需求了,所以现在基本上都是将数据放到hadoop平台去实现逻辑计算,那么就涉及到如何将oracle数仓的数据迁移到hadoop平台的问题. 这里就不得不提到一个很实用的工具--sqoop,它是一款开源的工具,主要用于实现关系型数据库与hadoop中hdfs之间的数据传递,其中用的最多的就是import,export了. sqoop的安装配置也是非常简单的,这里就不说明了,本文主要针对如何使用sqoop实现oracle到hive(h

ES 译文之如何使用 Logstash 实现关系型数据库与 ElasticSearch 之间的数据同

译者前言近期的主要工作是在为公司的 APP 增加搜索功能.因为也遇到了需要把关系型数据库中的数据同步 ElasticSearch 中的问题,故抽了点时间翻译了这篇官方的博文.最近,在数据同步方面也有些思考.本篇文章的重点不在 Logstash 的 JDBC 插件的使用方法,而是数据同步会遇到的一些细节问题如何处理.我觉得,这些设计思想是通用的,无论你使用的何种方式进行数据同步.翻译正文 为了利用 ElasticSearch 强大的搜索能力,大部分的业务都会在关系型数据库的基础上部署 Elasti

sqoop导入关系型数据库-解密Sqoop

Sqoop作为Hadoop与传统数据库之间的桥梁,对于数据的导入导出有着重要作用.通过对Sqoop基本语法以及功能的阐述,深刻解密Sqoop的作用和价值.  一.什么是Apache Sqoop? Cloudera开发的Apache开源项目,是SQL-to-Hadoop的缩写.主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如: MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDF

sqoop连接Oracle数据库错误异常

Sqoop 简单的来说可以实现关系型数据库和HDFS之间的数据互相转移. 大多数的测试资料都是基于mysql的实现 可是在测试连接oracle的时候却出现了问题 错误一:连接问题,在企业级应用中,对于机器的端口通信是有着比较严的控制,所以会经常遇到无法连接数据库.被拒绝的异常 解决  :hadoop的所有节点,包括namenode和datanode的所有机器都需要具有访问数据量的权限,就是需要把这些节点的ip地址都加入到数据库的可访问列表中 错误二:语法问题,这点看了半天网上的写法都是报错 sq

mysql基本认识【关系型数据库和nosql、mysql操作流程和体系,库操作,表操作,数据的操作,字符集的操作,以及php作为client操作数据库】对连接本身没有疑问

1.关系型数据库永久性保存数据的仓库php的变量只是php脚本执行期间,临时性保存变量的空间[使用内存空间临时保存] 关系型数据库:利用二者的关系来描述实体的信息.[利用二维表字段名和字段值来进行描述][关系型数据库根本不是可以使用外键将两个表构建成关联的意思,而是实现描述实体的二维表的形式] nosql:not only sql[sql表示操作关系型数据的语言]所以nosql指的就是非关系型数据库[典型的是键值对型的数据(redis.memcache)][nosql可以视情况添加信息,不需要对

转载:关系型数据库与面向对象

几乎所有的企业应用都需要持久化数据,没有数据持久化需求的企业应用在现在的市场环境下几乎是不可能出现的.由于关系型数据的普及,通常我们提到数据持久化时,一般指的是将数据持久化到关系型数据库中.关系型数据是一种结构化的数据管理方式,开发者只能通过 SQL 来操作数据库. Java 语言天生就是一门面向对象的编程语言,在 Java 的世界中,被处理的内容都被组织成一个一个的对象,对象和对象之间存在着继承.引用关系,这样的关系无法通过简单的方式直接反应到关系型数据库中.因此在关系型数据库与面向对象之间便

新技术架起 Oracle、Hadoop、NoSQL数据存储之间的桥梁

一直以来,大数据的使用远远不及大数据收集能力,就起原因主要是目前企业的数据主要分散在不同的系统或组织,大数据战略的杀手锏就是能够更深度的,更丰富的挖掘所有数据系统中的有价值的信息,从而更准确的预测客户行为,发现商业价值,但是目前很难将这些数据移到一个单独的数据存储中,另外,安全和监管问题也得不到保障,Oracle Big Data SQL的推出解决了现在面临的难题. 以下为译文:发现企业或组织对数据管理架构的需求,Oracle推出Big Data SQL软件来整合包括Hadoop.NoSQL和O

关系型数据库和NoSQL数据库

关系型数据库和NoSQL数据库 什么是NoSQL 大家有没有听说过 “NoSQL”呢?近年,这个词极受关注.看到“NoSQL”这个词,大家可能会误以为是“No!SQL”的缩写,并深感愤怒:“SQL怎么会没有必要了 呢?”但实际上,它是“Not Only SQL”的缩写.它的意义是:适用关系型数据库的时候就使用关系型数据库,不适用的时候也没有必要非使用关系型数据库不可,可以考虑使用更加合适的数据存 储. 为弥补关系型数据库的不足,各种各样的NoSQL数据库应运而生. 为了更好地了解本书所介绍的No

关系和非关系型数据库

什么是SQL SQL指结构化查询语言,是一门ANSI(美国国家标准学会)标准的计算机语言,主要用来访问和操作数据库系统.某些关系型数据库要求在每个SQL命令的末端使用分号,如MySQL(若不在命令末尾使用分号则报错),如果使用的关系型数据库是MS SQL Server或者SQL Server ,则不需要在每个SQL命令末端使用分号. RDBMS RDBMS指的是关系型数据库管理系统,RDBMS是SQL的基础,同样也是很多现在关系型数据库的基础,RDBMS的数据是存储在被称为表的数据库对象中,表是