《Programming Hive》读书笔记（二）Hive基础知识

_{阅读方法：}第一遍读是浏览，建立知识索引，因为有些知识不一定能用到，知道就好。感兴趣的部分可以多研究。

_{以后用的时候再详细看，并结合其他资料一起。}

Chapter 3.Data Types and File Formats

原始数据类型和集合数据类型

Select出来的数据，列与列之间的分隔符可以指定

Chapter 4.HiveQL:Data Definition

创建数据库，创建和改动表，分区的操作

Chapter 5.HiveQL:Data Manipulation

1 加载数据和导出数据，应该从本地和HDFS都可以。

2 创建表和将查询结果插入到表中

Chapter 6.HiveQL:Queries select的各种语法，join,cluster by等

Where支持正则表达式like,rlike

JOIN：On条件不支持不等号，不支持OR

1 先join再where，会根据join过滤一批数据，然后根据where过滤一批

2 The partition filters are ignored for OUTER JOINTS. However, usingsuch filter predicates in ON clauses for inner joins does work!

在outer join中，在on里面写分区条件是没用的。如果想通过分区条件加快速度，可以通过子查询再join的方法。

Inner join,left outer join,right outerjoin,left semi join（in的作用，但貌似高版本的hive支持in子查询）

hive >SELECT
*FROM
stocksJOIN
dividends

> WHEREstock.symbol=
dividends.symboland
stock.symbol=‘AAPL‘;

Hive里面，这条sql会先算笛卡尔积的再根据where过滤。

In Hive,this query computes the full Cartesianproduct before applying the WHERE

clause. Itcould take a very long time to finish. When the property hive.mapred.modeis

set to strict, Hive prevents users from inadvertentlyissuing a Cartesian product query.

两个表join，如果其中一个较小，可以通过map-side-join的方法加快速度。

不过这种优化不支持right-join和full-join。

Hive does not support theoptimization for right- and full-outer joins.

优化：满足一定条件，设置对应的参数开启。

The ORDER BY clause is familiar from other SQL dialects. It performs atotal orderingof

the query result set.This means that all the data is passed through a single reducer,

which may take an unacceptablylong time to execute for larger data sets.

Order by的排序是全局的，最后全部数据通过一个reducer来排序。

Because ORDER BY can result in excessively long run times, Hive willrequire a LIMIT

clause with ORDER BY if the property hive.mapred.mode is set to strict. Bydefault, it is

set to nonstrict.（注意事项）

sort by的排序是局部的

DISTRIBUTEBY controls how map output isdivided among reducers.

DISTRIBUTEBY可以指定map输出之后如何分配到各个reducer中。

通常是某个字段相同放在同一个reducer中，有点像groupby的思想。

经常跟sort by一起用（DISTRIBUTEBY放前面），达到先分组再内部排序的效果。

Cluster by相等于distribute by加上sort by的效果。

额外资料：

http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2843243.html

cast(valueAS TYPE)

强制性转换时，得注意转换后的值，看看是否达到你所需要的效果。

Queries from sample data

随机抽取数据

部分未不懂，先不管。

BlockSampling

Input Pruningfor Bucket Tables

Union all合并两个表

本文作者：linger

本文链接：http://blog.csdn.net/lingerlanlan/article/details/41153799

时间： 2024-12-09 02:00:11

《Programming Hive》读书笔记（二）Hive基础知识的相关文章

Java并发编程实践读书笔记--第一部分基础知识

目前关于线程安全性没有一个统一的定义,作者自己总结了一个定义,如下:当多个线程访问某个类时,不管运行时环境采用何种调度方式或者这些线程将如何交替执行,并且在主调代码中不需要任何额外的同步或协调,这个类都能表现出正确的行为,那么就称这个类是线程安全的. 在并发编程中,由于不恰当的执行时序而出现不确定的结果的情况被称为竞态条件(Race Condition).最常见的竞态条件就是“先检查后执行(Check-Then-Act)”操作,即通过一个可能已经失效的观察来决定下一步的动作.比较简单的例子就是两

framework7学习笔记二：基础知识

一:DOM7 framework7有自己的 DOM7 - 一个集成了大部分常用DOM操作的高性能库.它的用法和jQuery几乎是一样的,包括大部分常用的方法和jquery风格的链式调用. 在开发时,为了避免命名冲突以及方便开发,我们把dom7定义为一个变量: var $$ = Dom7; 之后,就可以在页面中使用 $$ 了. DOM7可以调用的方法,请查阅官方文档:http://docs.framework7.cn/Index/dom.html 二:

《Programming in Lua 3》读书笔记(二十一)

日期:2014.8.1 PartⅣ The C API 25 An Overview of the C API Lua是一种嵌入式语言.这就意味着Lua不是单独存在的,而是可以通过一系列的标准库将lua的特性嵌入至其他应用模块中. Lua以Lua interpreter(lua的解释器?)来解决了其不是独立程序,我们直到现在却又能独立使用Lua的问题.这个解释器是一个小型的程序(不超过500行代码),使用lua的标准库来实现独立解释程序,这个程序将处理与用户的交互等操作交给lua的标准库,这些库

《Programming in Lua 3》读书笔记(二十二)

日期:2014.8.6 PartⅣ The C API 26 Extending Your Application 使用Lua很重要的一点是用来做配置语言.配合主语言做一些功能的配置. 26.1 The Basics 有的时候程序需要配置一些功能信息,很多时候可能有许多别的方法比用lua做配置要更简单:如使用环境变量或者读取文件,读取文件涉及到文件的解析.如果使用Lua进行配置的话,相当于用lua文件替代了要读取的如csv.txt文件等. 使用Lua进行配置的时候,就需要使用Lua API去控制

《学会提问》读书笔记二

<学会提问>读书笔记二因为书中的小点知识和思考太多,我从这篇笔记开始就只记我害怕会遗忘的知识,思考过程就不提及了. 弱势批判性思维和强势批判性思维弱势批判性思维的目的是用批判性思维来反驳.抵制那些和你意见不同的论述最终就是为了看到那些与你主张不一致的人服服帖帖的甘心认输,但是这样就意味着,你对于是否接近真理和发扬美德漠不关心,实际上也摧毁了批判性思维潜在的人性的一面和不断发展进步的特征.而且我认为,弱势批判性思维的出发点是自私的,他们盲目地认为自己的观点就是正确的,用批判性思维来批判其他人

加壳学习笔记(二)-汇编基础

7.简单的汇编语法: 堆栈平衡 PUSH,POP功能: 把操作数压入或取出堆栈语法: PUSH 操作数 POP 操作数格式: PUSH r PUSH M PUSH data POP r POP mPUSHF,POPF,PUSHA,POPA功能: 堆栈指令群格式: PUSHF POPF PUSHA POPAADD,ADC功能: 加法指令语法: ADD OP1,OP2 ADC OP1,OP2格式: ADD r1,r2 ADD r,m ADD m,r ADD r,data影响标志: C,P,A,

深入理解计算机系统读书笔记一 ---> 计算机基础漫游

一.程序编译的不同阶段. 通常我们是以高级程序开发易于阅读的代码,我们通过语法规则推断代码的具体含义.但是计算机执行代码的时候就需要把代码解析成既定的可执行问题,计算机是如何处理的呢?这里以C语言hello.c文件为例来说明中间过程. #include <stdio.h> int main() { printf("hello world!\n"); } 先上张图. C语言源程序----预处理解析头文件和函数 --- 编译器解析成汇编语言 --- 翻译机器语言指令,打包

[terry笔记]data guard基础知识

如下介绍了data guard的基础知识,整理自网络: Data Gurad 通过冗余数据来提供数据保护,Data Gurad 通过日志同步机制保证冗余数据和主数据之前的同步,这种同步可以是实时,延时,同步,异步多种形式.Data Gurad 常用于异地容灾和小企业的高可用性方案,虽然可以在Standby 机器上执行只读查询,从而分散Primary 苏菊哭的性能压力,但是Data Gurad 决不是性能解决方案. 在Data Gurad 环境中,至少有两个数据库,一个处于Open 状态对外提供服

《卓有成效的程序员》----读书笔记二

六大方面对比Launchy和TypeAndRun(TAR) 对于快速启动工具,很多人都有自己的偏好,多次听到朋友介绍Launchy的好,虽然自己一直在使用着TAR,还是克制不住对于好软件的渴求,下载Launchy进行试用.很多软件都是有一个试用期的,也许新的软件确实不错,但是你习惯了以前使用的那个软件.今天就比较客观的将Launchy和TAR进行一下对比,从界面.上手速度到功能.自定义,以及软件的稳定性.占用资源进行详细的比较. [界面美观]Launchy:毫无疑问这是它的强项.1.0正式版自带

《R实战》读书笔记二

第一章 R简介本章概要 1安装R 2理解R语言 3运行R程序本章所介绍的内容概括如下. 一个典型的数据分析步骤如图1所示. 图1:典型数据分析步骤简而言之,现今的数据分析要求我们从多种数据源中获取数据.数据合并.标注.清洗和分析,并且把分析的结果进行展示,形成报告或者系统,辅助决策.R能够满足现今数据分析的要求. 为什么用R? R是一个适合统计分析和绘图的环境与语言.它是开源.免费的,获得世界范围社区支持.统计分析和绘图工具已经很多了,例如:SPSS,SAS,Excel,Stata和Min