大数据学习之十五——sqoop的安装和使用

1.概念了解

sqoop主要用于hadoop与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如:MYSQL,Oracle,Postgrep等)中的数据导到hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

2.sqoop的安装

(1)将压缩包sqoop-1.4.6.bin__hadoop-2.0.4-alpha.jar放在Linux的路径下,并修改配置文件/etc/profile

export SQOOP_HOME=该压缩包所在路径

export PATH=$PATH:$SQOOP_HOME/bin

(2)更新环境变量的值

source /etc/profile

检验是否安装成功:输入sqoop ,显示提示说明安装成功。

(3)下载mysql的连接jar包,放在sqoop的家目录的lib目录下。

安装后验证:

sqoop list-databases --connect jdbc:mysql://本地IP:3306/ --username root --password root123

若显示数据库,说明安装完成。

3.sqoop的使用

sqoop支持很多对数据库的操作,比如查看数据库,查看数据表,对数据的导入导出,导入所有的表。当然用的最多的还是export和import两个指令对数据库和hadoop数据进行导出导入。

(1)利用sqoop数据从mysql中导入到hdfs
 现在数据库中建立一个employee的表,字段有id,name,age,place,entry_time,position
,然后再填充一些数据。

运行命令格式:sqoop import --connect jdbc:mysql://本地IP:3306/数据库name   --username root --password 123456 --table 表名--target-dir  hdfs中的路径  -m 1

sqoop import --connect jdbc:mysql://master:3306/liu  --username root --password 123456 --table employees --target-dir /input/sqoop/sqoop_employees  -m 1

需要注意的是:要导入到hdfs中的目录不能提前存在。

(2)将数据从hdfs导出到mysql中

将hdfs中的数据/input/f.txt导入到数据库中:

执行命令格式:

#sqoop export --connect jdbc:mysql://本地IP地址:3306/数据库名字 --username root --table 表格的名字 --export-dir ‘hdfs中的路径‘ --fields-terminated-by ‘,‘

#sqoop export --connect jdbc:mysql://192.168.59.128:3306/db01 --username root --password  linux  --table table03 --export-dir ‘/input/f.txt‘ --fields-terminated-by ‘,‘

其中数据库db01,table03都是提前存在的,并且table03的属性是对应hdfs中的数据的。

原文地址:https://www.cnblogs.com/m-study/p/8401023.html

时间: 2024-08-03 07:37:45

大数据学习之十五——sqoop的安装和使用的相关文章

大数据学习之十二——MapReduce代码实例:关联性操作

1.单表关联 "单表关联"要求从给出的数据中寻找所关心的数据,它是对原始数据所包含信息的挖掘. 实例描述给出child-parent(孩子--父母)表,要求输出grandchild-grandparent(孙子--爷奶)表. 算法思想: 这个实例需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表.连接结果中除去连接的两列就是所需要的结果--"grandchild--grandparent"表.要用MapReduce解决这个实例

大数据入门第二十五天——logstash入门

一.概述 1.logstash是什么 根据官网介绍: Logstash 是开源的服务器端数据处理管道,能够同时 从多个来源采集数据.转换数据,然后将数据发送到您最喜欢的 “存储库” 中.(我们的存储库当然是 Elasticsearch.) //属于elasticsearch旗下产品(JRuby开发,开发者曾说如果他知道有scala,就不会用jruby了..) 也就是说,它是flume的“后浪”,它解决了“前浪”flume的数据丢失等问题! 2.基础结构  输入:采集各种来源数据 过滤:实时解析转

大数据学习第五天

大数据学习第五天 ulimit 查看进程最大文件描述符创建数 -a all详细信息 nginx_config 文件记录 #user nobody ngx_work进程属主 worker_processes 单核进程数 worker_connections 最大连接数 nginx单连接双文件描述符 一开最少开两 sendfile 文件内存暂存功能 减少一次文件拷贝次数 tcp_nopush 缓冲区请求数据合包开关 一般关掉 keepalive_timeout 连接保存时间 反向代理时需要设置为0

大数据学习线路图

近期开始大数据的学习,在学习之前给给自己定义了一个大数据学习路线 大数据技术学习路线指南 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明二.分布式文件系统HDFS,是数据库管理员的基础课程1.分布式文件系统HDFS简介2.HDFS的系统组成介

大数据学习路线

偶遇大数据学习路线,赶上一次科技革命不容易,追求下,要有所作为! 一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景2.Hadoop在大数据.云计算中的位置和关系3.国内外Hadoop应用案例介绍4.国内Hadoop的就业情况分析及课程大纲介绍5.分布式系统概述6.Hadoop生态圈以及各组成部分的简介7.Hadoop核心MapReduce例子说明 二.分布式文件系统HDFS,是数据库管理员的基础课程 1.分布式文件系统HDFS简介2.HDFS的系统组成介绍3.HDFS的组成

大数据学习路线图 让你精准掌握大数据技术学习?

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 大数据学习QQ群:119599574 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java

大数据学习路线指导,告诉你如何学习大数据

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图, ? ? 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处理类与核心技术.I/O

大数据学习路线 让你精准掌握大数据技术学习

大数据指不用随机分析法这样捷径,而采用所有数据进行分析处理的方法.互联网时代每个企业每天都要产生庞大的数据,对数据进行储存,对有效的数据进行挖掘分析并应用需要依赖于大数据开发,大数据开发课程采用真实商业数据源并融合云计算+机器学习,让学员有实力入职一线互联网企业. 今天小编的技术分享详细学习大数据的精准路线图,学好大数据就还得靠专业的工具. 阶段一. Java语言基础 Java开发介绍.熟悉Eclipse开发工具.Java语言基础.Java流程控制.Java字符串.Java数组与类和对象.数字处

大数据学习路线整理

一.大数据技术基础 1.linux操作基础 linux系统简介与安装    linux常用命令–文件操作    linux常用命令–用户管理与权限    linux常用命令–系统管理    linux常用命令–免密登陆配置与网络管理    linux上常用软件安装    linux本地yum源配置及yum软件安装    linux防火墙配置    linux高级文本处理命令cut.sed.awk    linux定时任务crontab 2.shell编程 shell编程–基本语法    shel