Sqoop使用的心得<01>

/**从开始接手大数据的开发工作,在很多方面很是拙计啊,

简单的记一下接手的大数据工作的项目经验

*/

Sqoop:

  用于关系型数据和大数据数据之间的关联等操作

  第一篇:

1:数据导入到大数据集群环境

一:首先通信要通(废话...)

连接数据库命令,按照这种方式(Oacle10g、Sqoop1.4.5-cdh5.2.0)

sqoop import --connect "jdbc:oracle:thin:@134.64.**.**:1521:****" --username use --password pwd

驱动、IP地址、端口、用户、密码------没什么好说的,注意引号!!!

Sqoop的导入命令   --import

业务场景:

1:全表导入到hdfs

2:部分字段导入到hdfs

3:对部分字段进行where判断导入到hdfs

4:有中文的情况(LINUX、Hadoop编码格式)

5:数据量大的分布处理

6:分割字符的处理

7:压缩处理

8:字符转换

begin:

hadoop fs -mkdir /user/***/testsqoop //在集群的hdfs的环境上创建一个文件夹testsqoop用于存放测试的数据

Now 全表import尝试:

sqoop import --connect "jdbc:oracle:thin:@134.**.**.**:1521:****" --username *** --password *** --table zqk_bigdata_test_sqoop --target-dir /user/***/testsqoop001  

MR完成,输出存放到目录下文件夹名称testsqoop001

但是不需要的字段导进去作甚,so用----query参数开写select语句、需要在后面加上"where $CONDITIONS",和split-by 参数

sqoop import --connect "jdbc:oracle:thin:@134.**.**.**:1521:***" --username *** --password ***--query  ‘select t.nom1,t.nom2,t.nom3 from zqk_bigdata_test_sqoop t where $CONDITIONS‘  --target-dir /user/***/testsqoop002   --split-by nom2  //split-by **  主键**,没有主键也可以用一个合适的字段代替

then 带有where的条件,试一下---需要用where参数指定导出时所使用的查询条件,success

sqoop import --connect "jdbc:oracle:thin:@134.64.***.**:1521:***" --username ***--password *** --query  ‘select t.nom1,t.nom2,t.nom3 from zqk_bigdata_test_sqoop t where $CONDITIONS‘  --target-dir /user/****/testsqoop003   --split-by nom2 --where "t.nom2<‘4‘"

然后就是分割符号了,当oracle中的字段为空的时候,你会发现默认情况下的是"null"

可是我想展示为"",空而不是NULL字符串----需要一个参数--null-string ‘‘,里面写什么自己定了

sqoop import --connect "jdbc:oracle:thin:@134.**.**.**:1521:***" --username *** --password *** --query  ‘select t.nom1,t.nom2,t.nom3 from zqk_bigdata_test_sqoop t where $CONDITIONS‘  --target-dir /user/***/testsqoop003   --split-by nom2 --where "t.nom2<‘4‘"  --null-string ‘‘//--null-non-string  当那啥的列为非字符串类型,用这种语法
时间: 2024-10-16 01:20:48

Sqoop使用的心得<01>的相关文章

微信公众账号开发历程及心得01

1.昨天主要使用BAE对php的开发接口测试代码进行了调试,使用SVN,将对checkout下载的index.php进行代码编写,并再次上传commit.在微信中配置相应url和token即可. 2.今天主要进行j2ee的开发部署与功能学习,初次听说到dom4j从xml进行解析的开源框架,还有xstream实现Java类到xml的转换的jar包. 利用这两个便可完成对微信平台所发消息的xml解析及消息回复的xml封装.中间业务过程便是j2ee的知识了~ 3.在部署时有些问题需要注意.java类型

Xcode使用心得01:断点中断问题和调整编译目标

在obj-c系列博文里,我们粗浅的介绍了obj-c的一些语法以及F库中的一些标准类的使用,但是实际编写拿得出手的APP还是得老老实实在os x上用Xcode写啊!最近上网无意中发现还有支持os x和ios的ruby框架啊,手又痒了!另外Swift也推出了,Xcode6.0beta也装了,这个世界诱惑就是多啊!不过言归正传,在这一系列博文里还是诚恳的记录下使用Xcode过程中出现的问题以及解决方法吧. OK!言归正传,在使用Xcode6beta时(以下全部简称x6b),发现设置断点,中断后直接跳到

Xcode使用心得01:断点中断问题和调整编译目标[转]

在obj-c系列博文里,我们粗浅的介绍了obj-c的一些语法以及F库中的一些标准类的使用,但是实际编写拿得出手的APP还是得老老实实在os x上用Xcode写啊!最近上网无意中发现还有支持os x和ios的ruby框架啊,手又痒了!另外swift也推出了,Xcode6.0beta也装了,这个世界诱惑就是多啊!不过言归正传,在这一系列博文里还是诚恳的记录下使用Xcode过程中出现的问题以及解决方法吧. OK!言归正传,在使用Xcode6beta时(以下全部简称x6b),发现设置断点,中断后直接跳到

javascript基础学习心得01

绝对值小于等于2的53次方的整数,即-253到253,都可以精确表示,也就是说15位的十进制数都可以精确处理: JavaScript 能够表示的数值范围为21024到2-1023(开区间),超出这个范围的数无法表示: NaN不是独立的数据类型,而是一个特殊数值,它的数据类型依然属于Number: NaN不等于任何值,包括它本身: 单纯的数学运算几乎没有可能抛出错误: Infinity与NaN比较,总是返回false : 0乘以Infinity,返回NaN: 0除以Infinity ,返回0 :

Monitor WMIExportsToC++Use DiskCleanup bypass UAC

作者:嘶吼吼链接:https://zhuanlan.zhihu.com/p/23473665来源:知乎著作权归作者所有.商业转载请联系作者获得授权,非商业转载请注明出处. About: Use odbcconf to load dll Use powershell to get dll exports Use Event Tracing for Windows to log keystrokes from USB keyboards 目录: 1. 介绍为什么通过odbcconf加载dll可以绕过

我喜欢减肥我们来减肥吧

http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313278016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313282016/2015.01.28.html http://www.ebay.com/cln/honus.jyw4mvptb/cars/158313289016/2015.01.28.html http://www.ebay.com/cln/usli

百度回家看沙发沙发是减肥了卡斯加积分卡拉是减肥

http://www.ebay.com/cln/hpryu-caw8ke/cars/158056866019/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445650015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/158445674015/2015.01.31 http://www.ebay.com/cln/xub.50x2l7cj/cars/1584456790

巢哑偕倥乇椭煞谙暗逞帕俸

IEEE Spectrum 杂志发布了一年一度的编程语言排行榜,这也是他们发布的第四届编程语言 Top 榜. 据介绍,IEEE Spectrum 的排序是来自 10 个重要线上数据源的综合,例如 Stack Overflow.Twitter.Reddit.IEEE Xplore.GitHub.CareerBuilder 等,对 48 种语言进行排行. 与其他排行榜不同的是,IEEE Spectrum 可以让读者自己选择参数组合时的权重,得到不同的排序结果.考虑到典型的 Spectrum 读者需求

我国第三代移动通信研究开发进展-尤肖虎200106

众所周知,数据科学是这几年才火起来的概念,而应运而生的数据科学家(data scientist)明显缺乏清晰的录取标准和工作内容.此次课程以<星际争霸II>回放文件分析为例,集中在IBM Cloud相关数据分析服务的应用.面对星际游戏爱好者希望提升技能的要求,我们使用IBM Data Science Experience中的jJupyter Notebooks来实现数据的可视化以及对数据进行深度分析,并最终存储到IBM Cloudant中.这是个介绍+动手实践的教程,参会者不仅将和讲师一起在线