Hive的UDF(用户自定义函数)开发

　　当 Hive 提供的内置函数无法满足你的业务处理需要时，此时就可以考虑使用用户自定义函数（UDF：user-defined function）。

测试各种内置函数的快捷方法：

创建一个 dual 表

create table dual(id string);

load 一个文件（只有一行内容：内容为一个空格）到 dual 表

新建 JAVA maven 项目

添加依赖

<dependencies>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>1.2.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.4</version>
        </dependency>
    </dependencies>
    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.2</version>
                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                                <filter>
                                    <artifact>*:*</artifact>
                                    <excludes>
                                        <exclude>META-INF/*.SF</exclude>
                                        <exclude>META-INF/*.DSA</exclude>
                                        <exclude>META-INF/*.RSA</exclude>
                                    </excludes>
                                </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>

编写一个 java 类，继承 UDF，并重载 evaluate 方法

import org.apache.hadoop.hive.ql.exec.UDF;

/**
 * hive的自定义函数
 */
public class ItcastFunc extends UDF{
    //重载
    public String evaluate(String input){
        return input.toLowerCase();//将大写字母转换成小写
    }

    public int evaluate(int a,int b){
        return a+b;//计算两个数之和
    }
}

打成 jar 包上传到服务器

将 jar 包添加到 hive 的 classpath

hive>add JAR /root/hivedata/udf.jar;

创建临时函数与开发好的 java class 关联

create temporary function udffunc as ‘hive.udf.UDFFunc‘;//temporary表示为临时方法，当会话结束后失效；udffunc为hive中定义的函数名，‘hive.udf.UDFFunc’为自定义方法的全类路径

在 hive中使用自定义的函数

select udffunc("ABC") from dual;//输出abc

select udffunc(2,3) from dual;//输出5

原文地址：https://www.cnblogs.com/jifengblog/p/9278972.html

时间： 2024-08-24 01:35:02

Hive的UDF(用户自定义函数)开发的相关文章

SQL Server UDF用户自定义函数

UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且尅作为一个单元爱进行调用.UDF和存储过程的主要区别在于返回结果的方式. 使用UDF时可传入参数,但不可传出参数.输出参数的概念被更为健壮的返回值取代了.和系统函数一样,可以返回标量值,这个值的好处是它并不像在存储过程中那样只限于整形数据类型,而是可以返回大多数SQL Server数据类型. UDF有以下两种类型: 返回标量值的UDF. 返回表的UDF. 创建语法: CREATE FUNCTIO

Pig UDF 用户自定义函数

注册UDF do.pig的内容如下: register /xx/yy.jar data = load 'data'; result = foreach data generate aa.bb.Upper($0); dump result; register的路径可以是本地路径,也可以是hdfs路径 register hdfs://pig/xx/yy.jar 如果是pig -Dudf.import.list=aa.bb,在引用UDF时可以不用包路径: register /xx/yy.jar dat

详解Spark sql用户自定义函数:UDF与UDAF

UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数hold不住,所以Spark sql提供了可扩展的内置函数接口:哥们,你的业务太变态了,我满足不了你,自己按照我的规范去定义一个sql函数,该怎么折腾就怎么折腾! 例如,MySQL数据库中有一张task表,共两个字段taskid (任务ID)与taskParam(JSON格式的任务请求参数).简单起见,

【甘道夫】开发Hive自定义UDF，生成32位字母数字随机串

引言曾经认为Hive自带的函数应该可以cover住我的日常所需,心想那些需要使用自定义函数的场景是不是太奇葩,谁知命运弄人,自己还是碰上了. 需求很简单,我需要模拟Oracle中的SYS_GUID()函数,生成一个32位的字母数字随机串. 开发环境:Eclipse+Maven,引入Hive0.13.1的依赖. 欢迎转载,请注明来源: http://blog.csdn.net/u010967382/article/details/41083617 代码 package cn.fulong.big

开发HIVE的UDTF自定义函数

[Author]: kwu UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求,开发HIVE的UDTF自定义函数具体步骤如下: 1.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF,实现initialize, process, close三个方法. 2.UDTF首先会调用initialize方法,此方法返回UDTF的返回行的信息(

hive 的udf 函数使用

1)依据课程讲解UDF编程案例,完成练习,总结开发UDF步骤,代码贴图,给予注释,重点 2)更改emp 表中名字的大写给为小写. 一:hive 的udf 函数: 1.1 hive UDF 函数概述: 1. hive自带了一些函数比如:max/min 等,但是由于自带的函数数量有限,自己可以定义udf来方便扩展. 2. udf 函数可以直接应用于select 语句,对查询结构做格式化处理之后,然后再输出内容. 1.2 hive 编写udf函数的时候需要注意的地方: 1. 自定义udf函数需要继承o

hive下UDF函数的使用

1.编写函数 [java] view plaincopyprint?package com.example.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF; import org.apache.hadoop.io.Text; public final class LowerCase extends UDF { public Text evaluate(final Text s) { if (s == null)

hive 部署UDF函数

一.临时添加UDF函数 1.上传jar包至hive服务器 2.hive shell执行如下命令: add jar /home/hive/hivejar/billing-on-hive-1.0.jar create temporary function strip as 'com.tsingzone.bigdata.billing.GetOperator'; 注: strip:自定义函数名 com.tsingzone.bigdata.billing.GetOperator:类名仅对当前shell

hive的UDF 函数(User-Defined-Function)

UDF函数可以直接应用于select语句,对查询结构做格式化处理后,再输出内容. 关系运算等值比较: = 语法: A = B 操作类型: 所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为FALSE 举例: hive> select 1 from dual where 1=1; 1 不等值比较: <> 语法: A <> B 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL:如果表达式A与表达式B不相等,则为T