hive streaming 使用的时候的一些心得

hive streaming 报错的解决方案:

1、把使用到hive streaming 的sql 分解,例如:select transform a,b,c,d using ‘python cc.py‘ as (e,f) from table,分解成:select a,b,c,d from table ,然后执行:

  hive -e "select a,b,c,d from table" | python cc.py,这样如果是语法有问题的话就会检查出来。

2、查看是否是编码问题:如果你的sql中要使用:using “cc.py” 那么如果python脚本有编码问题的话,就会无法执行并报错。监测是否有问题的方法是:chmod 777 cc.py,然后用./cc.py执行脚本,如果报错,那么sql中肯定也报错,解决方法就是用 using “python cc.py”

3、如果你的集群配置了日志收集,那么查看问题就方便多了,直接去执行sql的hdfs 上面的application目录下面查看就可以。

4、在python 脚本中加上 import traceback ;

 except Exception,e:

 print traceback.format_exc()

时间: 2024-10-14 00:56:15

hive streaming 使用的时候的一些心得的相关文章

Hive Streaming 追加 ORC 文件

1.概述 在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大.那么,我们需要有一种方式来减少容量的成本.而在 Hive 中,有一种 ORC 文件格式可以极大的减少存储的容量成本.今天,笔者就为大家分享如何实现流式数据追加到 Hive ORC 表中. 2.内容 2.1 ORC 这里,我们首先需要知道 Hive 的 ORC 是什么.在此之前,Hive 中存在一种 RC 文件,而 ORC

hive streaming 使用shell脚本

一.HIVE streaming 在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现.其原理可以理解成:用HQL语句之外的语言,如Python.Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能. 二. 实例 1. 日志文件的格式 2014-02-02 01:59:02 W3SVC1 2001:da8:7007:102::244 GET /favicon.ico - 80 - 2001:da8:7007:336:ca:f74b:eede:a024

Hive学习笔记(一)

摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作.1. HIVE结构 Hive 是建

Hive随记

随手记一些Hive容易遗漏的点或者问题,之后可能还会继续更新. 1.Hive使用一个inputFormat对象将输入流分割成记录,然后使用一个outputFormat对象来将对象格式化为输出流,再使用一个SerDe在读数据时将记录解析成列,在写数据时将列编码成记录. 2.where条件对分区字段使用UDF可能导致扫全表, 例如时间戳转换函数,是在逐行转换. 3.分桶 4.可以使用视图来降低查询复杂度.限制基于条件过滤数据. 5.Hive中可以创建索引,不过基本不用. 6.Explain Exte

【Flume】flume ng 1.6 做了哪些变化

依旧和大家一起看一下官网的内容: http://flume.apache.org/ ·增加了apache kafka的sink和source两大组件 ·增加了一个新的channel--kafka channel ·增加了hive的sink组件,需要hive streaming的支持 ·端到端的认证 ·简单的正则搜索和替换的拦截器 开始体验吧!

Hive Python Streaming的原理及写法

在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现.其原理可以理解成:用HQL语句之外的语言,如Python.Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能. 比如,我有一张不同网站访问的日志表,其中有两个列是url和ref,分别代表当前访问的网址和来源地址,我想要查看用户的来源,即看用户都是从那些网站跳到这些网站上去的,这里有些网站可能域名是二级甚至三级域名,但是这些实际上是属于其顶级域名的.所以要找出其顶级域名.这个在Hive的自定义函数

[转帖]我最近研究了hive的相关技术,有点心得,这里和大家分享下。

我最近研究了hive的相关技术,有点心得,这里和大家分享下. https://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html 首先我们要知道hive到底是做什么的.下面这几段文字很好的描述了hive的特性: 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类SQL语句快速实

大数据分析处理框架——离线分析(hive,pig,spark)、近似实时分析(Impala)和实时分析(storm、spark streaming)

大数据分析处理架构图 数据源: 除该种方法之外,还可以分为离线数据.近似实时数据和实时数据.按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性: 计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算.而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实

Hive学习心得&Hive的UDF

一:Hive基本介绍 Hive是建立在Hadoop上的数据仓库基础构架,它提供了一系列工具可以用来进行数据提取.转化.加载,这是一种可以存储.查询和分析存储在Hadoop中的大规模的数据机制. 使用语言:QL语言(类SQL查询语言).能处理内建的mapper和reducer无法完成的复杂分析工作. 1.Hive是SQL解析引擎,它将SQL语句转译成M/R Job然后再Hadoop执行. 2.Hive的表其实是HDFS的目录(/文件夹),按表名把文件夹区分开.如果是分区表,则分区值是子文件夹,可以