hive正则表达式

hive中实现正则表达式，与java中的正则表达式有所区别：

这里经过探索总结了一些：

hive中的正则可以用，但是有所区别，区别在于原来的‘\’ 转义，这里变成了双斜杠了‘\\’

hive中的正则解析函数：regexp_extract; 例如：‘匹配 10.122.248’

select regexp_extract(host,‘(^[\\w]+)\\.([\\w]+)\\.([\\w]+)‘,0) aa from browsewebpagelog where dt like ‘20140630%‘;

第一参数：要处理的字段，第二参数需要匹配的正则表达式，第三个参数:0是显示与之匹配的整个字符串，1,是显示第一个括号里面的，2是显示第二个括号里面的字段...

语法: regexp_extract(string subject, string pattern, int index)

返回值: string

说明：将字符串subject按照pattern正则表达式的规则拆分，返回index指定的字符。注意，在有些情况下要使用转义字符

举例：

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 1) from dual;

the

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 2) from dual;

bar

hive> select regexp_extract(‘foothebar’, ‘foo(.*?)(bar)’, 0) from dual;

foothebar

注：有些博客上用 rlike匹配正则，我试过它的含义是只要出现你所制定的正则时，都给你匹配上，你必须添加开始‘^’的符号，否则匹配的结果绝对不是所期望的。

hive正则表达式

时间： 2024-08-03 00:44:39

hive正则表达式的相关文章

hive 正则表达式匹配中文

例如:要取出收件人 *的 select regexp_extract('收件人为小明的15622150839','收件人为([\\u4E00-\\u9FFF]+)的',1 ) from tmp.t_gg limit 1;select regexp_extract('收件人为小明的15622150839','收件人为([啊-龥]+)的',0 ) from tmp.t_gg limit 1; select regexp_extract('收件人为小明的15622150839','收件人为([\\

HIVE之正则化详解

有大神写的很好了,我借花献佛,有兴趣,看链接,在此不再赘述.想要学习Hive正则表达式重点应该是正则表达式的表示方式,只有正则表达式使用溜了,hive正则那就是小case. 附参考博文: https://blog.csdn.net/bitcarmanlee/article/details/51106726 下面说下LIKE: ?LIKE比较: LIKE 语法: A LIKE B 操作类型: strings 描述: 如果字符串A或者字符串B为NULL,则返回NULL:如果字符串A符合表达式B

hive中使用正则表达式不当导致运行奇慢无比

业务保障部有一个需求,需要用hive实时计算上一小时的数据,比如现在是12点,我需要计算11点的数据,而且必须在1小时之后运行出来,但是他们用hive实现的时候发现就单个map任务运行都超过了1小时,根本没法满足需求,后来打电话让我帮忙优化一下,以下是优化过程: 1.hql语句: CREATE TABLE weibo_mobile_nginx AS SELECT split(split(log, '`') [ 0 ], '\\|')[ 0 ] HOST, split(split(log, '`'

Hadoop Hive基础sql语法

Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言查询,汇总,分析数据.而mapreduce开发人员可以把己写的mapper 和reducer 作为插件来支持

Hive入门到剖析（二）

5 Hive参数 hive.exec.max.created.files 说明:所有hive运行的map与reduce任务可以产生的文件的和默认值:100000 hive.exec.dynamic.partition 说明:是否为自动分区默认值:false hive.mapred.reduce.tasks.speculative.execution 说明:是否打开推测执行默认值:true hive.input.format 说明:Hive默认的input format 默认值: org.a

Hive入门到剖析（一）

1 Hive简介 1.1 Hive定义 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能. 本质是将SQL转换为MapReduce程序. 1.2 为什么使用Hive 1.面临的问题人员学习成本太高项目周期要求太短我只是需要一个简单的环境 MapReduce 如何搞定复杂查询好难 Join如何实现 2.为什么要使用Hive 操作接口采用类SQL语法,提供快速开发的能力避免了去写MapReduce,减少开发人员的学习成本扩展

hive支持sql大全

转自:http://www.aboutyun.com/thread-7316-1-1.html 一.关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为FALSE 举例:hive>select 1 from lxw_dual where 1=1; 2. 不等值比较: <> 语法: A <> B 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL:如果表达式A与

hadoop安装hive及java调用hive

1.安装hive 在安装hive前,请确保已经安装好了hadoop,如未安装,请参考centoos 安装hadoop集群进行安装: 1.1.下载,解压下载hive2.1.1:http://mirror.bit.edu.cn/apache/hive/hive-2.1.1/apache-hive-2.1.1-bin.tar.gz: 将下载好的hive包解压到/usr/local中 tar -zxvf apache-hive-2.1.1-bin.tar.gz -C /usr/local/ 进入到/

Hive 内建操作符与函数开发——深入浅出学Hive

第一部分:关系运算 Hive支持的关系运算符 ?常见的关系运算符 ?等值比较: = ?不等值比较: <> ?小于比较: < ?小于等于比较: <= ?大于比较: > ?大于等于比较: >= ?空值判断: IS NULL ?非空判断: IS NOT NULL ?LIKE比较: LIKE ?JAVA的LIKE操作: RLIKE ?REGEXP操作: REGEXP ?等值比较: = 语法:A=B 操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为