数据仓库----Hive进阶篇一

一、数据的导入

1、使用Load语句执行数据的导入

1.语法：

    其中（中括号中表示可加指令）：
        LOCAL：表示指定的文件路径是否是本地的，没有则说明是HDFS上的文件路径。
        OVERWRITE：表示覆盖表中的已有数据。
        PARTITION ()：如果是向分区表中导入数据的话需要指定分区。
2.实例：
    (1).无分区情况：

    其中的‘/root/data‘可以是路径也可以是文件：
        路径表示把该路径下的所有文件都导入到表中；
        文件表示只把当前文件导入到表中。
    (2).有分区情况：

2、使用Sqoop进行数据的导入

1.使用sqoop将mysql数据库中的数据导入到HDFS中

hive> sqoop import --connect jdbc:mysql://localhost/3306/sfd --username root --password 123 --table student --columns ‘sid,sname‘ -m 1 --target-dir ‘/sqoop/student‘

    其中：
        --connet ：表示数据库的url链接
        --username ：数据库用户名
        --password ：数据库用户密码
        --table ：源数据所在的表
        --clomns ： 表中的列名，（例子中使用‘,‘ 链接）
        -m 1 : 表示启用的mapreduce个数为1个
        --target-dir ： 将源数据导入到HDFS上的那个文件夹下

2.使用sqoop将mysql数据库中的数据导入到hive中：

hive> sqoop import --hive-import --connect jdbc:mysql://localhost/3306/sfd --username root --password 123 --table student --columns ‘sid,sname‘ -m 1 --hive-table stu --where ‘sid=1‘

    其中：
        --hive-table stu ： 表示在导入到hive中名为stu的表中
        --where ：表示插入数据的条件

3.使用sqoop将mysql数据库中的数据导入到hive中,并使用查询语句；

hive> sqoop import --hive-import --connect jdbc:mysql://localhost/3306/sfd --username root --password 123 -m 1 --query ‘select * from student where sid=‘1‘ and $CONDITIONS‘ --target-dir ‘/sqoop/student1‘ --hive-table stu

    其中：
        --query : 表示使用的查询语句,如果查询语句中有where条件限制那么必须加上 and $CONDITIONS(大写)

4.使用sqoop将hive中的数据导出到mysql中：

hive> sqoop export --connect jdbc:mysql://localhost/3306/sfd --username root --password 123 -m 1 --table student1 --export-dir ‘/data‘

    其中：
        --table ：为mysql数据库中的已经建立了的表
        --export-dir ：将数据这个文件夹下的数据导入到mysql的student1表中。

二、Hive的数据查询

1、查询的语法：

    例子：查询student表中的信息：
        select * from student;(查询所有信息不用启用mapreduce)
        select sid from student;（需要启动mapreduce）
        select sid,sname,math,english,math+english from student;(在（math+english）表达式中如果有一个变量为空那么整个表达式为空，可以使用nvl（math，0）函数，表示如果math为空令其为0)

2、简单查询的Fetch Task功能，

从上面的例子中可以看出，简单的查询如果不是查询所有的信息，就会开启mapreduce任务，这样会影响工作效率，从Hive0.10.0版本开始支持了Fetch Task功能；
Fetch Task功能配置方式：
    a. 方式一： set hive.fetch.task.conversion=more
    b. 方式二： hive --hiveconf hive.fetch.task.conversion=more
    c. 方式三： 修改hive-site.xml文件

    前两种方式只在当前hive命令行有用，当重启hive时简单查询还是会调用mapreduce程序；而第二种方式配置是一直起作用的。

3.、在查询中使用过滤

1.where 语句进行过滤。（字符串过滤区分大小写）

    其中：%\\_%  :  由于_是模糊查询中的关键词（表示有一个字符），所以要用到转义字符，第一个‘\‘表示后面使用的是转义字符，‘\_‘表示的是‘_‘;

4、在查询中排序

排序默认是升序的，要想降序只需在末尾加上desc

注意：当使用序号进行排序的使用需要设置一个属性：set hive.groupby.orderby.position.alias=true;

三、Hive的内置函数

1、数学函数：

round（45.926,2）：四舍五入（第二个参数表示的是保留小数点后面几位，当参数为负数是表示的是小数点前）

ceil（45.9）：向上取整

floor（45.9）：向下取整

2、字符函数：

lower：把字符串转换成小写
upper：把字符串装换成大写
length：字符串的长度
concat(‘hello‘,‘world‘)：添加一个字符串
substr(a,b)：截取字符串:(从a中，第b为开始取，取到右边所有的字符)
substr(a,b,c)：截取字符串：(从a中，第b为开始取，取c个字符)
trim：去掉字符串两端的空格
lpad(‘abc‘,10,‘*‘)：左填充
rpad：右填充

3、收集函数和转换函数：

1，收集函数：
    size：

2，转换函数：
    cast：cast(1 as bigint);

4、日期函数：

to_data：取出字符串中的日期部分

year：取出日期中的年
month：取出日期中的月
day：取出日期中的日

weekofyear：返回一个日期在一年中是第几个星期

datediff：两个日期相减返回相差的天数

date_add：在一个日期上加上多少天
date_sub：在一个日期上减去多少天

5、条件函数：

coalesce(a,b,...)：从做到右返回第一个不为null的值

case...when...: 条件表达式
    case a when b then c [when d then e]* [else f] end

6、聚合函数：

count:个数
sum:求和
min:求最小值
max:求最大值
avg:求平均值

7、表生成函数：

explode：把一个map集合或者是array数组中的一个元素单独生成一行

数据仓库—-hive进阶篇二

时间： 2024-08-07 08:24:45

数据仓库----Hive进阶篇一的相关文章

Python之路【第十七篇】：Django【进阶篇】

Python之路[第十七篇]:Django[进阶篇 ] Model 到目前为止,当我们的程序涉及到数据库相关操作时,我们一般都会这么搞: 创建数据库,设计表结构和字段使用 MySQLdb 来连接数据库,并编写数据访问层代码业务逻辑层去调用数据访问层执行数据库操作 import MySQLdb def GetList(sql): db = MySQLdb.connect(user='root', db='wupeiqidb', passwd='1234', host='localhost')

Maya基础与建模教程 AE教程进阶篇 3DS MAX影视特效教程 Flash CS4案例教程

热门推荐电脑办公计算机基础知识教程 Excel2010基础教程 Word2010基础教程 PPT2010基础教程五笔打字视频教程 Excel函数应用教程 Excel VBA基础教程 WPS2013表格教程更多>平面设计PhotoshopCS5教程 CorelDRAW X5视频教程 Photoshop商业修图教程 Illustrator CS6视频教程更多>室内设计3Dsmax2012教程效果图实例提高教程室内设计实战教程欧式效果图制作实例教程 AutoCAD2014室内设计 Aut

在Horizon Workspace中配置Windows单点登录-进阶篇

在上一篇基础篇里面,简单介绍了在Horizon Workspace 1.8中如何配置Windows单点登录.在这篇博客中,会继续介绍一些针对大规模虚机或者虚拟桌面部署的配置方式.这些配置方式可以保证用模板部署出来的虚机或虚拟桌面在Workspace服务器端配置完成的情况下,不再需要用户进行手动配置就能实现HorizonWorkspace的单点登录. 1. 在模板机组策略中配置IE浏览器的设置通过在模板虚拟机上的管理控制台中设置相应的策略,可以使后续使用模板机克隆出来的虚拟机自动使用Window

java web进阶篇（四） Tomcat数据源

动态web开发的最大特点是可以进行数据库的操作,传统的jdbc操作由于步骤重复性造成程序性能下降. 先来回顾JDBC的操作原理 1.加载数据库驱动程序,数据库驱动程序通过classpath配置. 2.通过DirverManager类取得数据库连接对象. 3.通过Connection实例化PreparedStatement对象,编写sql语句命令操作数据库. 4.数据库属于资源操作,操作完成后要关闭数据库以释放资源. 其实以上操作,1.2.4步骤是重复的,保留3,实际上就是数据源产生的原因. 数据

Python之路【第十七篇】：Django之【进阶篇】

Python基础—面向对象（进阶篇）

通过上一篇博客我们已经对面向对象有所了解,下面我们先回顾一下上篇文章介绍的内容: 上篇博客地址:http://www.cnblogs.com/phennry/p/5606718.html 面向对象是一种编程方式,此编程方式的实现是基于对类和对象的使用: 类是一个模版,模板中包装了多个方法供使用(这里方法就是函数): 对象,根据模板创建的实例,实例用于调用被包装在类中的函数: 面向对象的三大特性:封装.继承.多态. 今天博客的内容主要介绍:Python类的成员.成员修饰符.类的特殊成员.异常处理和

ASP.NET MVC URL重写与优化(进阶篇)-继承RouteBase玩转URL

http://www.cnblogs.com/John-Connor/archive/2012/05/03/2478821.html 引言-- 在初级篇中,我们介绍了如何利用基于ASP.NET MVC的Web程序中的Global文件来简单的重写路由.也介绍了它本身的局限性-依赖于路由信息中的键值对: 如果键值对中没有的值,我们无法将其利用凑出我们想要的URL表达式. 初级篇传送门:使用Global路由表定制URL 在进阶篇中,我们将介绍ASP.NET 路由相关类的基类-抽象类RouteBas

Hive进阶(下)

Hive进阶(下) Hive的表连接等值连接查询员工信息:员工号.姓名.月薪.部门名称 1.select e.empno,e.ename,e.sal,d.dname2.from emp e,dept d3.where e.deptno=d.deptno; 不等值连接查询员工信息:员工号.姓名.月薪.工资级别 1.select e.empno,e.ename,e.sal,s.grade2.from emp e,salgrade s3.where e.sal between s.losal a

Visual Studio调试之断点进阶篇

Visual Studio调试之断点进阶篇在上一篇文章Visual Studio调试之断点基础篇里面介绍了什么是断点,INT 是Intel系列CPU的一个指令,可以让程序产生一个中断或者异常.程序中如果有中断或者异常发生了以后,CPU会中断程序的执行,去一个叫做IDT的部件查找处理这个中断(或者异常)的例程(Handler).IDT是操作系统在启动的时候初始化的,至于IDT的细节问题,例如什么是IDT,怎样编写一个IDT的例程,怎样初始化IDT,可以去网上搜索一些资料. 总之,这里我们只要知

数据仓库----Hive进阶篇 一