Hive窗口函数

参考地址：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

环境准备：

CREATE TABLE `wtab`(
  `a` int,
  `b` int,
  `c` int);

　　

数据：

1、LEAD函数

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff }
span.s1 { }

LEAD (scalar_expression [,offset] [,default]) OVER ([query_partition_clause] order_by_clause); The LEAD function is used to return data from the next row.

lead函数主要是返回窗口中列名为：scalar_expression偏移为offset的值，如果不存在则返回NULL，窗口使用over划分，具体划分参考示例：

 SELECT a, LEAD(a,1,9999) OVER (PARTITION BY b ORDER BY C) from wtab;

PARTITION BY 表示根据字段b划分窗口，就是b值相同的划分到一个窗口，ORDER BY 表示窗口内部按照字段C进行排序。此条查询结果为：

以b=1为例讲解，b相同的都在一个窗口按照c排序之后结果为：

这个就是b=1的窗口，a=1下面offset=1的数据为11，所以查询结果为：1 11 ；其他同理。

2、LAG函数

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff }
span.s1 { }

LAG (scalar_expression [,offset] [,default]) OVER ([query_partition_clause] order_by_clause); The LAG function is used to access data from a previous row.

lag函数与lead函数相反，是向上offset取row，如果row不存在则返回默认值。示例：

 SELECT a, LAG(a, 2, 66666) OVER (PARTITION BY b ORDER BY C) from wtab;

根据字段b划分窗口之后向上offset=2取row，没有的话返回6666

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 11.0px Menlo; color: #000000; background-color: #ffffff }
span.s1 { }
span.Apple-tab-span { white-space: pre }

原文地址：https://www.cnblogs.com/leodaxin/p/10118919.html

时间： 2024-10-11 14:44:33

Hive窗口函数的相关文章

Hive窗口函数之LAG、LEAD、FIRST_VALUE、LAST_VALUE的用法

一.创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile; 数据准备: P066666666666,2016-04-02 09:00:02,user01 P066666666666,2016-04-02 09:00:00,user02 P066666666666,20

Hive窗口函数最全案例详解

语法: 分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置) 常用分析函数: 聚合类 avg().sum().max().min() 排名类 row_number() 按照值排序时产生一个自增编号,不会重复 rank() 按照值排序时产生一个自增编号,值相等时会重复,会产生空位 dense_rank() 按照值排序时产生一个自增编号,值相等时会重复,不会产生空位其他类 lag(列名,往前的行数,[行数为null时的默

Hive新功能 Cube, Rollup介绍

说明:Hive之cube.rollup,还有窗口函数,在传统关系型数据(Oracle.sqlserver)中都是有的,用法都很相似. GROUPING SETS GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统计选项,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来,下面是几个实例可以帮助我们了解, 以acorn_3g.test_xinyan_reg为例: [[email protected] xjob]

hive 之 Cube, Rollup介绍

1. GROUPING SETS GROUPING SETS作为GROUP BY的子句,允许开发人员在GROUP BY语句后面指定多个统维度,可以简单理解为多条group by语句通过union all把查询结果聚合起来结合起来. 为方便理解,以testdb.test_1为例: hive> use testdb; hive> desc test_1; user_id string ? ? ?id ? ? ? ? ? ? ? ? device_id ? ? ?string ? ? ?设备类型:手

Hive分析窗口函数

Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE https://cwiki.apache.org/confluence/display/Hive/LanguageManual+WindowingAndAnalytics

Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK

问题导读: 1.NTILE作用是什么? 2.按照pv降序排列,生成分组内每天的pv名次可使用哪个窗口函数? 3.RANK 和 DENSE_RANK作用是什么? 接上篇:Hive分析窗口函数(一)SUM,AVG,MIN,MAX 本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途. Hive版本为 apache-hive-0.13.1 注意: 序列函数不支持WINDOW子句.(什么是WINDOW子句,Hive分析窗口函数(一)SUM,

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive分析窗口函数(一) SUM,AVG,MIN,MAX Hive中提供了越来越多的分析函数,用于完成负责的统计分析.抽时间将所有的分析窗口函数理一遍,将陆续发布. 今天先看几个基础的,SUM.AVG.MIN.MAX. 用于实现分组内所有和连续累积的统计. 数据准备 CREATE EXTERNAL TABLE lxw1234 ( cookieid string, createtime string, --day pv INT ) RO

hive内置函数详解(分析函数、窗口函数)

cli命令 show functions; desc function concat; desc function extended concat;查看某个函数怎么使用的例子 nvl函数coalesce(v1,v2,...)返回参数中第一个非空值,如果所有值都为null返回null: set.cli.print.header=true; winfunc 员工工资标识 id money type 关系型运算符优先级高到低为:not and orand or 优先级 select id ,mo

hive的窗口函数cume_dist、fercent_rank

一.cume_dist 这两个序列分析函数不是很常用,这里也介绍一下.注意: 序列函数不支持WINDOW子句. 数据准备: d1,user1,1000 d1,user2,2000 d1,user3,3000 d2,user4,4000 d2,user5,5000 创建表并加载数据 create external table user( dept string, userid string, sal int ) row format delimited fields terminated by '

猜你喜欢

HDU - 2553 N皇后问题（dfs）

题意:每行放一个棋子,棋子不能在同一行同一列,对角线. 这道题关键在剪枝.剪枝完了就是递归咯. 剪枝: (a[i]数组里面装选择的列). 某一行的a[i]不能和a[n]冲突,所以有以下4个需要判断的条 ...

【BZOJ2019】nim

直播写题这刺激233 原题: 著名游戏设计师vfleaking,最近迷上了Nim.普通的Nim游戏为:两个人进行游戏,N堆石子,每回合可以取其中某一堆的任意多个,可以取完,但不可以不取.谁不能取谁输. ...

插入排序与归并排序

前言: 排序算法应该算是算法入门级的东西了,这里重新学习算法,先暂时归纳下个人对两种算法的理解. 插入排序: 插入排序可以对应到现实生活中的排队去停车场停车的场景.假设某家饭店的饭菜十分好吃(流口水) ...

家教O2O把老师当老师的理念太陈旧了

既然做O2O,本身就是把这当服务业的.出钱的人才是老大.老师受到尊重是因为你传授的东西他人认可,而不该是因为“老师”两个字.另外,成年人会去请家教的,往往是自己有一些长处的.你只是一方面的老师,人家可 ...

Web渗透测试使用Kali Linux（一）渗透测试概要及环境部署

渗透测试是利用已经发现的漏洞,采用恶意黑客的惯用手段来尝试对漏洞进行攻击. Kali Linux是BackTrack的进化版,是Linux的衍生版本,专门开发用作渗透测试,其中提供了很多的渗透测试工具 ...

mysql的关于TABLE_SCHEMA的sql语句和nformation_schema表

1.查询sjcenter数据库里开头为sj_demo和sj_onlyinv的所有表的总条数 select sum(table_rows) from (select table_name,table_r ...

HDU 4422 The Little Girl who Picks Mushrooms （2012年成都赛区现场赛C题）

1.题目描述:点击打开链接 2.解题思路:本题是一道简单模拟题,然而,自己的方法不对WA了很多次==.最后不得不弃用自己的思路了.首先用-1表示还没有使用过的位置.可以每次枚举3个位置,如果发现这3个 ...

【BZOJ】1500: [NOI2005]维修数列（splay+变态题）

http://www.lydsy.com/JudgeOnline/problem.php?id=1500 模板不打熟你确定考场上调试得出来? 首先有非常多的坑点...我遇到的第一个就是,如何pushu ...

找出排序数组中重复数字的个数

开始我的思路是先二分查找找到一个,然后再两边分别看个数. 但是这种方法会退化到O(n).效率不好. 所以更好的方法是,先找出第一个,再找出最后一个.这个在二分查找的时候,通过判断条件的处理,是能够获得 ...

植树禁毒宣传km

庭审中,公诉机关出示了相关证据,艾宝俊及其辩护人进行了质证,控辩双方在法庭的主持下充分发表了意见,艾宝俊还进行了最后陈述,并当庭表示认罪.悔罪.被告人亲属,全国.福建省.漳州市三级人大代表.政协委员, ...

Apache Spark支持三种分布式部署方式 standalone、spark on mesos和 spark on YARN区别

链接地址: http://dongxicheng.org/framework-on-yarn/apache-spark-comparing-three-deploying-ways/

NVIDIA称自己是人工智能公司，但这个市场到底有多大？

(上图为NVIDIA CEO 黄仁勋) 黄仁勋在1993年创立了一家叫做NVIDIA的公司,于1999年发明了图形处理器GPU,从此GPU就改变了世界.特别是在游戏领域,NVIDIA GPU几乎已经成 ...

毕业论文一次性修改所有字母和数字的字体

毕业论文往往最烦人的就是汉字用宋体,数字和字母要用Time New Roman,这些东西都是混排的,一处一处去改,不知道改到什么时候.其实利用word的替换功能很轻松就能搞定,下面图解常见方法(第6条 ...

poj 1655 树形dp求取树的重心

http://poj.org/problem?id=1655 Description Consider a tree T with N (1 <= N <= 20,000) nodes n ...

Oracle SQL 查询优化.Part4

一.插入 insert 操作: 1. 复制表结构但不新增数据: -- 复制表结构但不插入数据 create table emp_new as select * from emp where 1 = 2 ...

CODEVS 1158 尼克的任务

[题目描述 Description] 尼克每天上班之前都连接上英特网,接收他的上司发来的邮件,这些邮件包含了尼克主管的部门当天要完成的全部任务,每个任务由一个开始时刻与一个持续时间构成. 尼克的一个 ...

让员工更敬业

让员工更敬业最近,有几个有关中国职场的数据,吸引了我的注意: 国家统计局2014年数据显示中国员工的年工作时间是2,000至2,200小时左右,为全球最高: 根据Gallup 2014年调查,只有6 ...

Virtual member call in a constructor

http://stackoverflow.com/questions/119506/virtual-member-call-in-a-constructor (Assuming you're writ ...

Win10开机提示Resume from Hibernation该怎么办?

Windows10系统的电脑开机提示:Resume from Hibernation(从休眠恢复),这是电脑没有真正关机,而是上次关机时进入了[休眠状态],所以开机时提示:从休眠恢复.如何解决Wind ...

Linux rpm 命令参数使用

RPM是RedHat Package Manager(RedHat软件包管理工具)类似Windows里面的“添加/删除程序” rpm 执行安装包二进制包(Binary)以及源代码包(Source)两种 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.026 s.