HIVE分析函数

hive支持的分析函数：

总的概括：http://www.07net01.com/linux/HIVE_chuangkoujifenxihanshu_yingyongchangjing_532180_1373989446.html

********************************************************************************************************

Rank over的用法：http://www.cnblogs.com/mycoding/archive/2010/05/29/1747065.html

原始数据：

a b c

----------- ----------- ----

1 3 E

2 4 A

3 2 D

3 5 B

4 2 C

2 4 B

需求：以a,b进行分组，在每个组内以b进行排名。

select *,rank() over( partition by a,b order by b) from xxxx_tab
;

数据为：

a b c rank

----------- ----------- ---- --------------------

1 3 E 1

2 4 A 1

2 4 B 1

3 2 D 1

3 5 B 2

4 2 C 1

分了5个组，第2行跟第3行是一个组，其他的每行是一个组。在第2行与第3行的组内以b排名，并列为1

***************************************************************************************************************************************

Row_Number() over的用法：http://www.cnblogs.com/fxgachiever/archive/2010/09/15/1826792.html

原始数据：

empid deptid salary

1 10 5500.00

2 10 4500.00

3 20 1900.00

4 20 4800.00

5 40 6500.00

6 40 14500.00

7 40 44500.00

8 50 6500.00

9 50 7500.00

需求：根据部门分组，显示每个部门的工资等级

SQL脚本：

SELECT *, Row_Number() OVER (partition by deptid ORDER BY salary desc) rank FROM employee

预期结果：

empid deptid salary rank

----------- ----------- --------------------------------------- --------------------

1 10 5500.00 1

2 10 4500.00 2

4 20 4800.00 1

3 20 1900.00 2

7 40 44500.00 1

6 40 14500.00 2

5 40 6500.00 3

9 50 7500.00 1

8 50 6500.00 2

********************************************************************************************

窗口函数的用法：http://blog.csdn.net/cnham/article/details/6101199

select month,sum(tot_sales) month_sales, sum(sum(tot_sales)) over(order by month rows between unbounded preceding and unbounded following) total_sales from orders group by month.

时间： 2024-10-12 11:47:18

HIVE分析函数的相关文章

HADOOP docker(六):hive简易使用指南

前言1.hive简介1.1 hive组件与相应功能:1.2 hive的表类型1.3 分区表1.3 分隔符1.4 hive的数据存储2.数据类型2.1 基本数据类型2.1 复杂数据类型2.3 NULL3.基本操作3.1 数据库操作3.2 表操作3.3 视图3.4 数据导入导出3.hsql3.1 hsql基本操作3.2 hive内置函数3.2 自定义函数3.3 注册函数4.hive权限管理4.1 权限简介4.2 权限分类4.3 授权管理5.hive优化前言本手册介绍了hive的基本知识及工作中要

Hive基础（1）---Hive是什么

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案.由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性. 这是来自官方的解释. 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦. 先上一张经典的Hive架构图: Hive架构图如

hive-分析函数

bitmap -------------- 位图/位映射. 5 hive -------------- 分区表 udtf函数 wordcount lateral view //和udtf配合使用. order by //数据倾斜 sort by //reduce内排序 distribute by //分区 cluster by //sort by + distribute by hive -------------- --显式表头 hive>set hive.cli.print.header=t

hive内置函数详解(分析函数、窗口函数)

cli命令 show functions; desc function concat; desc function extended concat;查看某个函数怎么使用的例子 nvl函数coalesce(v1,v2,...)返回参数中第一个非空值,如果所有值都为null返回null: set.cli.print.header=true; winfunc 员工工资标识 id money type 关系型运算符优先级高到低为:not and orand or 优先级 select id ,mo

我为什么学习hive窗口分析函数

1. 窗口函数 LEAD(column_name, n, default_value),用于统计窗口内往下第n行的值, LAG(column_name, n, default_value),用于统计窗口内往上第n行的值. FIRST_VALUE(column_name),分组窗口排序后,截止到当前行的第一个值: LAST_VALUE(column_name),分组窗口排序后,截止当前航的最后一个值: 2. OVER语句 SUM/COUNT/MIN/MAX/AVG(column_name) OVE

Hive 窗口分析函数

1.窗口函数 1.LAG(col,n,DEFAULT) 用于统计窗口内往上第n行值第一个参数为列名,第二个参数为往上第n行(可选,默认为1),第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL) 2.LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值第一个参数为列名,第二个参数为往下第n行(可选,默认为1),第三个参数为默认值(当往下第n行为NULL时候,取默认值,如不指定,则为NULL) 3.FIRST_VALUE(col,false) 用于统

hive row_number等窗口分析函数

一.排序&去重分析 row_number() over(partititon by col1 order by col2) as rn 结果:1,2,3,4 rank() over(partititon by col1 order by col2) as rk 结果:1,2,2,4,5 dense_rank() over(partititon by col1 order by col2) as ds_rk 结果:1,2,2,3,4 select order_id, departure_date,

Hive常见内置函数及其使用

函数分类 HIVE CLI命令显示当前会话有多少函数可用 SHOW FUNCTIONS; 显示函数的描述信息 DESC FUNCTION concat; 显示函数的扩展描述信息 DESC FUNCTION EXTENDED concat; 简单函数函数的计算粒度为单条记录. 关系运算数学运算逻辑运算数值计算类型转换日期函数条件函数字符串函数统计函数聚合函数函数处理的数据粒度为多条记录. sum()-求和 count()-求数据量 avg()-求平均直 distinct-求

Hive分组取Top N

Hive在0.11.0版本开始加入了row_number.rank.dense_rank分析函数,可以查询分组排序后的top值说明: row_number() over ([partition col1] [order by col2]) rank() over ([partition col1] [order by col2]) dense_rank() over ([partition col1] [order by col2]) 它们都是根据col1字段分组,然后对col2字段进行排序,

猜你喜欢

3月九日

今天主要是讲循环语句,感觉内容挺多的,需要好好整理一下啦! 循环:反复执行某段代码.循环四要素:初始条件,循环条件,循环体,状态改变.for(初始条件;循环条件;状态改变){ 循环体} 先来个简单的例 ...

学习shell scripts

变量赋值使用declare -i 定义整型类 [[email protected] scripts]# aa=5+6 [[email protected] scripts]# echo $aa 5+ ...

GridView内容详解(转载)

GridView内容详解(转载) GridView是ASP.NET界面开发中的一个重要的控件,对GridView使用的熟练程度直接影响软件开发的进度及功能的实现.(车延禄)GridView的主要新特性 ...

Python socket编程之构造IP首部和ICMP首部

这两天在做一个实验需要自己构造IP首部,遇到诸多问题,搞了一天终于搞定. 关于socket的介绍网上一大堆,我只记录构造IP头时我遇到的问题.由于没玩过socket构造IP首部,网上找了段代码研究下, ...

基于ITIL的SCOM监控最佳实践

1. 按照系统类别进行监控很多朋友在使用SCOM进行监控的时候,往往只是导入管理包,推送代理,并不会思考很多,那么在这种情况下,SCOM在进行监控的时候都是基于缺省的类对象进行监控,比如说Wind ...

Tomcat热部署的实现原理

概述名词解释:所谓热部署,就是在应用正在运行的时候升级软件,却不需要重新启动应用. 对于Java应用程序来说,热部署就是在运行时更新Java类文件.在基于Java的应用服务器实现热部署的过程中,类装 ...

android开发学习之路——连连看之游戏逻辑（五）

GameService组件则是整个游戏逻辑实现的核心,而且GameService是一个可以复用的业务逻辑类. (一)定义GameService组件接口根据前面程序对GameService组件的依赖, ...

poj_2251_Dungeon Master_bfs

Dungeon Master Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Subm ...

Integer Character Arrays BigDecimal/BigInteger Calendar数组的排序方式及二分折半查找一.Integer(方法补充) 1.十进制转换其他进制方法 ...

Cstring的使用

https://msdn.microsoft.com/zh-cn/aa315043 1.字符串提取函数,CString::Left.CString::Mid .CString::Right CStri ...

Levenshtein distance 编辑距离

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数.许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符实现方案: 1. 找出最长 ...

Webbench进行网站压力测试

今天突然发现一个新大陆,Webbench,是linux下,用这很方便,开源,不限制并发访问次数和时间....大爱啊! 下载Webbench 使用wget 或者windows下载好导入linux也行, ...

Vim工具使用备忘

intent Act Repeat ReverseMake a change ...

监控http服务脚本

[[email protected] scripts]# vim test_httpd.sh 1 #!/bin/bash 2 #ss -tlnup|grep :80 >/dev/null 2&g ...

扣谌壤卓姓h63cto0t7

除了极少数人之外,绝大多数老师都没想到在一场新生的比赛中,竟然会有如此壮观的一幕出现,武魂融合技,那可是武魂融合技啊!"别吵,让我再睡会儿."王冬用被子蒙着头,却是不肯起来.萧萧嘿 ...

Spring技术内幕深入解析ace admin java框架源码

A 代码生成器(开发利器); 增删改查的处理类,service层,mybatis的xml,SQL( mysql 和oracle)脚本, jsp页面都生成就不用写搬砖的代码了,生 ...

【转】ArcGIS中File Geodatabase与Personal Geodatabase的区别

原文地址:ArcGIS中File Geodatabase与Personal Geodatabase的区别作者:最爱忆宝贝一.平台支援: 1.Personal Geodatabase:仅可在Windo ...

C#拾遗之属性

在编程语言中,最早见到属性这个词是在学习C++的时候,C++类和对象的属性过于简单介绍,当时也不知道是怎么实现的,由于面向对象的封装性,属性在编程语言中扮演着重要的角色.这本<从零开始学C#&g ...

ABAP、BW培训笔记

ABAP开发目标:ABAP编辑器.报表程序创建语法检查修改执行等基本操作.ABAP数据字典.SQL的使用大体介绍 ABAP:Advanced Business Application P ...

C#中类与结构体的区别

1,结构是实值类型(Value Types),而类则是引用类型(Reference Types). 2,结构使用栈存储(Stack Allocation),而类使用堆存储(Heap Allocatio ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.