SQOOP是用于对数据进行导入导出的。
(1)把MySQL、Oracle等数据库中的数据导入到HDFS、Hive、HBase中
(2)把HDFS、Hive、HBase中的数据导出到MySQL、Oracle等数据库中
(3)导入导出的事务是以Mapper任务为单位。
1、sqoop的安装步骤
1.1、执行命令:tar -zxvf sqoop-1.4.3.bin__hadoop-1.0.0.tar.gz解压
1.2、执行命令:mv sqoop-1.4.3.bin__hadoop-1.0.0 sqoop重命名路径
1.3、配置环境变量:并执行命令:source /etc/profile
export SQOOP_HOME=/home/hadoop/app/sqoop export PATH=.:$SQOOP_HOME/bin:$HADOOP_HOME/bin:$ZOOKEEPER_HOME/bin:$HBASE_HOME/bin:$HIVE_HOME/bin:$JAVA_HOME/bin:$PATH
1.4、cp /home/hadoop/app/mysql-connector-java-5.1.10.jar $SQOOP_HOME/lib/
2、sqoop的使用
2.1、把数据从mysql导入到hdfs中:默认路径是/user/<username>,注意这里的username是登录主机的用户,不是数据库的用户
sqoop ##sqoop命令 import ##表示导入 --connect jdbc:mysql://hadoop:3306/test ##告诉jdbc,连接mysql的url,其中test表示要导出数据的数据库名称 --username root ##连接mysql的用户名 --password hadoop123 ##连接mysql的密码 --table users ##从mysql导出的表名称 --fields-terminated-by ‘\t‘ ##指定输出文件中的行的字段分隔符 --null-string ‘**‘ ##指定空值的显示为** -m 1 ##复制过程使用1个map作业,默认为4 --append ##指定插入数据的方式 --hive-import ##把mysql表数据复制到hive中,如果不使用该选项,意味着复制到hdfs中 --check-column ‘ID‘ ##指定增量导入要检查的字段 --incremental append ##指定增量导入数据的方式 --last-value 6 ##指定增量导入数据的分割值
2.2、把数据从hdfs导出到mysql中
sqoop export ##表示数据从hive复制到mysql中 --connect jdbc:mysql://hadoop:3306/test --username root --password admin --table users_bak ##mysql中的表,即将被导入的表名称,必须存在 --export-dir ‘/hive/users‘ ##hive中被导出的文件目录 --fields-terminated-by ‘\t‘ ##hive中被导出的文件字段的分隔符
2.3、设置为作业,运行作业
sqoop job #表示JOB命令 --create myjob #创建的JOB名称 -- #不能省略!后面跟JOB的定义内容 import --connect jdbc:mysql://hadoop:3306/test --username root --password hadoop123 --table users --fields-terminated-by ‘\t‘ --null-string ‘**‘ -m 1 --append --hive-import
查看JOB:sqoop job --list
执行JOB:sqoop job --exec myjob
删除JOB:sqoop job --delete myjob
执行后会要求输入密码注意是输入:JOB定义内容中的password 的值!
如果不想输入密码修改$SQOOP_HOME/conf/sqoop-site.xml中的参数
<property> <name>sqoop.metastore.client.record.password</name> <value>true</value> <description>If true, allow saved passwords in the metastore. </description> </property>
时间: 2024-11-07 10:00:20