hive学习笔记_hive的介绍与安装

一、什么是Hive

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

二、Hive的体系结构

下图一为官网提供的hive体系结构。

从体系结构上看，Hive是建立在 Hadoop 上的数据仓库基础构架。

1、hive的用户接口为：CLI，Hiveserver,WebUI。

　①CLI为命令行客户端或者说是命令行环境，客户端可以直接在命令行模式下进行操作。

②Hiveserver支持jdbc/odbc方式，Hive提供了Thrift服务，Thrift客户端目前支持C++/Java/PHP/Python/Ruby。

③webGUI接口，让hive提供了更加直观的web操作页面。但是处理大量数据的时候，不推荐使用。

2、Metastore 元数据存储，存储Hive所有的表与分区的结构化信息，包括列与列类型信息，序列化器与反序列化器，从而能够读写hdfs中的数据。

　有三种存储方式。

①内嵌Derby方式

②Local方式

③Remote方式

关于三种存储方式，会在以后的博文中详细介绍。

3、Hadoop与Hive的关系

　　Hive是Hadoop的一个组件，作为数据厂库，Hive的数据是存储在Hadoop的文件系统中的，hive为Hadoop提供SQL语句，是Hadoop可以通过SQL语句操作文件系统中的数据。hive是依赖Hadoop而存在的。

在网上下载了一张图片，很明了的介绍了他们之间的关系，如下图：

三、Hive的安装

　　1，打开服务向导，选择安装Hive，在安装Hive之前，请安装好MapReduce。如下图

　　

　　2，首先我们会看到，我们会为hive选择一组依赖关系。

　　

　　3，自定义分配角色，根据实际情况，去分配角色。

　　

　　4，选择数据库，可以选选择嵌入式数据库，后期再去改。

　　

　　测试连接，如果成功，点击继续。

　　5，安装进度。

　　

时间： 2024-11-18 21:08:04

hive学习笔记_hive的介绍与安装的相关文章

PHP教程:PHPUnit学习笔记(一)PHPUnit介绍及安装

PHP教程:PHPUnit学习笔记(一)PHPUnit介绍及安装作者:罪惡发布于:2011-4-9 19:15 Saturday PHP教程最近学习并在项目中运用了PHPUnit做自动化测试,我将在博客上基于我的PHPUnit学习笔记进行连载,详细的介绍这个自动化测试框架. 笔记内容基本上基于PHPUnit的官方文档和例子,里面加上我自己理解的翻译和配合描述代码.本笔记使用的PHPUnit版本为3.5.13, 测试平台为ubuntu10.10 PHP5.3.3 什么是PHPUnit? PH

MongoDB学习笔记(一) MongoDB介绍及安装

这是MongoDB的系列学习笔记的第一篇,主要介绍什么是非关系型数据库MongoDB,如何下载,去哪儿下载,又该怎么正确的安装等一系列问题. 一.前言最近开始学习非关系型数据库MongoDB,却在博客园上找不到比较系统的教程,很多资料都要去查阅英文网站,效率比较低下.本人不才,借着自学的机会把心得体会都记录下来,方便感兴趣的童鞋分享讨论.部分资源出自其他博客,旨将零散知识点集中到一起,如果有侵犯您的权利,请联系li- [email protected].大部分内容均系原创,欢迎大家转载分享,

vue学习笔记——简单的介绍以及安装（一）

学习编程需要的是 API+不断地练习^_^ Vue官网:https://cn.vuejs.org/ 菜鸟教程:http://www.runoob.com/vue2/vue-tutorial.html 1.简单的介绍 Vue.js(读音 /vju?/, 类似于 view) 是一套构建用户界面的渐进式框架. Vue 只关注视图层, 采用自底向上增量开发的设计. Vue 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件. Vue 学习起来非常简单,本教程基于 Vue 2.1.8 版

hive学习笔记_hive的表创建

创建hive表注意事项一.表分隔符必须与读取的数据文件一致,比如例子的分隔符为 '\t'(制表符),hive下默认分隔符是制表符. 二.最好指定分区作为数据之间的区分. 三.创建完表可以desc+表明进行查看,字段名称(field),类型(type),common(备注,默认没的话为空). eg: drop table track_log;create table track_log (id string ,url string ,referer string ,keyword string

MongoDB学习笔记(一) MongoDB介绍及安装（摘）

MongoDB是一个高性能,开源,无模式的文档型数据库,是当前NoSql数据库中比较热门的一种.它在许多场景下可用于替代传统的关系型数据库或键/值存储方式.Mongo使用C++开发.Mongo的官方网站地址是:http://www.mongodb.org/,读者可以在此获得更详细的信息. 小插曲:什么是NoSql? NoSql,全称是 Not Only Sql,指的是非关系型的数据库.下一代数据库主要解决几个要点:非关系型的.分布式的.开源的.水平可扩展的.原始的目的是为了大规模web应用,这场

NFC学习笔记二——Libnfc简介与安装

一直想把自己对过的英文文章做一下翻译记录下来,趁着学习NFC,现将libnfc首页的对libnfc介绍和在不同操作系统上对libnfc安装的文章做一下翻译,一方面提高一下自己的英语,另一方面学习一下libnfc. 原文地址:http://nfc-tools.org/index.php?title=Libnfc 公共平台独立的近场通讯(NFC)库 libnfc是GNU公共许可正下发布的第一个免费的底层的NFC开发包和编程API.它对任何人事完全免费和公开的.这个列表显示了libnfc支持的功能.l

hive 学习笔记精简

创建表: drop table t create table if not exists t (t string) partitioned by (log_date string) row format delimited fields terminated by '\t' lines terminated by '\n' create table t1 like t create table t2 as select * from t //如果加多余的字段或者加group by等关键字会报错

树莓派学习笔记——交叉编译练习之SQLite3安装

0.前言本博文可能并没有太多使用价值.不过为了练习而练习.在树莓派上使用SQLite有非常多的方法,安装的方法也有非常多. [1]假设使用Python,那么不必安装SQLite由于Python已经自带SQLite. [2]能够使用apt-get安装.仅仅是SQLite的版本稍低些. [3]能够使用源码安装,在树莓派上直接编译,尽管树莓派的运算速度不如PC机.可是稍等几分钟也能编译安装完毕. [4]假设你想练习一下交叉编译,请阅读下面内容吧. [本文目的] [1]怎样交叉编译源码包 [2]交叉编

Mysql DBA高级运维学习笔记-mysql数据库介绍

本文为我自己学习老男孩MySQL DBA 高级运维课程的学习笔记,内容均出自老男孩MySQL DBA 高级运维课程,老男孩老师讲的很好,非常感谢老男孩老师.我是一个菜鸟刚接触运维,如果我写的文章有不对的地方:请各位行业的精英.老师多多批评指点,呵呵~ 1.1 数据库介绍 1.1.1 什么是数据库?简单的说,数据库就是一个存放数据的仓库,这个仓库是按照一定的数据结构(数据结构是指数据的组织形式或数据之间的联系)来组织.存储的,我们可以通过数据库提供的多种方法来管理数据库里的数据. 1.2 数据库的

猜你喜欢

nice命令

nice命令可以用于调节系统资源分配,它的取值范围:-20~19 ,缺省值是10 比如备份工作就可以把nice值调整大一些比如打包设置最低优先级: nice -n +19 tar zcf pack. ...

2.2JAVA基础复习——JAVA语言的基础组成运算符和语句

JAVA语言的基础组成有: 1.关键字:被赋予特殊含义的单词. 2.标识符:用来标识的符号. 3.注释:用来注释说明程序的文字. 4.常量和变量:内存存储区域的表示. 5.运算符:程序中用来运算的符号 ...

《JAVA与模式》之工厂方法模式

在阎宏博士的<JAVA与模式>一书中开头是这样描述工厂方法模式的: 工厂方法模式是类的创建模式,又叫做虚拟构造子(Virtual Constructor)模式或者多态性工厂(Polymor ...

Java数据存入文件和读取文件

在Java程序开发过程中我们发现并不能够让程序多次运行时获得上一次关闭程序前的运行结果--我们没有将运行的结果加以保存.这个时候我们就要找到Java操作读取数据的方法(以操作文件为例):Java中的输 ...

POJ 1222 extended lights out 高斯消元板子题

题目链接:http://poj.org/problem?id=1222 题目描述:其实就是开关问题, 按下按钮会影响当前和周围的四个按钮, 问关闭所有灯的方案解题思路:以前用搜索做过, 那时候是刚刚 ...

POJ 2679：Adventurous Driving（SPFA+DFS）

http://poj.org/problem?id=2679 Adventurous Driving Time Limit: 1000MS Memory Limit: 65536K Total S ...

Android布局控件

1 <LinearLayout xmlns:android="http://schemas.android.com/apk/res/android" 2 android:la ...

uva 10098 Generating Fast(全排列)

还是用的两种方法,递归和STL,递归那个是含有反复元素的全排列,这道题我没有尝试没有反复元素的排列,由于从题目上并没有发现一定是有反复元素的() 贴代码: <span style=" ...

LIS教学篇

LIS是最长上升子序列,(递增子序列是指,子序列的元素是递增的)例如:5 1 6 8 2 4 5 10,最长递增子序列是1 2 4 5 10. 对于LIS,有两种解法,一种是比较容易想到的O(n^2) ...

Java——Java数组

数组对于每一门编辑应语言来说都是重要的数据结构之一. 声明数组变量首先必须声明数组变量,才能在程序中使用数组.下面是声明数组变量的语法: double[] myList; // 首选的方法或 do ...

使用github + Octopress 搭建免费博客 + 碰到问题的解决方法

使用github + Octopress 搭建免费博客,先说碰到的问题,具体创建方法见下面. 问题1, 添加ruby淘宝链接问题,显示无法获取, 解决: source “http://ruby.tao ...

Python基础学习笔记（八）常用字典内置函数和方法

参考资料: 1. <Python基础教程> 2. http://www.runoob.com/python/python-dictionary.html 3. http://www.lia ...

USACO 1.3 Barn Repair

Barn Repair It was a dark and stormy night that ripped the roof and gates off the stalls that hold F ...

PAT：1020. 月饼 (25) AC

#include<stdio.h> #include<algorithm> using namespace std; struct cake { double amount; ...

mysql语句在客户端与服务端的基本使用

http://www.cnblogs.com/1314wamm/p/6016361.html [MySQL]MySQL服务器与客户端的区别

产生不重复的随机数TGUID

uses ActiveX; procedure TForm1.BtnNewClick(Sender: TObject);var ID: TGUID; S: string;begin if CoC ...

Oracle判断语句集合（转载）

SELECT decode(sign(to_date('2008-05-01', 'yyyy-MM-dd') - to_date('2008-03-01', 'yy ...

R6300V2 从 DD-WRT 回刷恢复官方原厂固件   DD-WRT to R6300V2

DD-WRT 用着不方便需回刷 R6300V2原厂固件.在DD-WRT的升级界面中直接选择R6300V2的官方固件.chk升级两秒钟后页面自动跳转显示无法访问.无法完成刷机. 解决办法是DD-WRT选 ...

委托与协议

Delegate-委托,顾名思义就是委托别人办事,就是当一件事情发生后,自己不处理,让别人来处理. Protocol-协议,就是使用了这个协议后就要按照这个协议来办事,协议要求实现的方法就一定要实现. ...

查询某文件夹下的所有文件

var Path = @"F:\教程\ASP\第12季asp.net高级\";//文件夹路径 DirectoryInfo dir = new DirectoryInfo(Path) ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.