Hive入门学习--Hadoop简介

　　现在想要应聘大数据分析或者数据挖掘岗位，很多都需要会使用Hive,Mapreduce,Hadoop等这些大数据分析技术。为了充实自己就先从简单的Hive开始吧。接下来的几篇文章是记录我如何入门学习Hive的。

一、Hive简介

　　Hive是一个数据仓库基础工具，架构在Hadoop之上，能够处理Hadoop中的结构化数据。简言之，Hive和SQL是一个数据分析和处理工具，它提供了SQL查询功能，可以将SQL语句转换为Mapreduce任务运行。

　　既然Hive是架构在Hadoop之上的，我们就有必要简单的了解一下什么是Hadoop。Hadoop的出现是因为处理大数据的需要。因为现在的数据量过大，传统的数据库管理系统已经满足不了需求，所以我们需要一个有别于传统数据库的管理工具。Hadoop主要有两个模块Mapreduce和HDFS。Hadoop要稳定工作需要有很多模块的协助，Hive只是其中的一个模块。它还有其他模块比如:sqoop(用来管理HDFS和RDBMS之间的数据交互)，Pig(处理脚本语言)。运行Mapreduce作业的方法有很多：（1）使用java Mapreduce->不管是结构化，半结构化，非结构化的数据都可以处理 (2)使用像Pig的脚本语言->处理结构和半结构化数据（3）用Hive这样查询语言->结构化数据

　　Hive是由Facebook率先开发的，而后由Apache软件基金继续开发。它的使用范围很广，具有很大的商业用途，很多公司都用它，比如亚马逊。

二、Hive的特点

　　1.架构在一个数据库中并将处理后的数据放到HDFS中

　　2.Hive针对的是OLAP（联机分析处理）数据

　　3.提供了SQL类型语言查询HiveQL

三、Hive架构

　　

　　

　　

原文地址：https://www.cnblogs.com/whatyouknow123/p/8901104.html

时间： 2024-11-05 15:50:42

Hive入门学习--Hadoop简介的相关文章

hive入门学习线路指导

转自:http://www.aboutyun.com/thread-7598-1-1.html hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助.此篇内容较多:看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程 1.hive首先我们需要hive是什么?让你真正明白什么是hive上面讲的很明白1.hive是一个数据仓库2.hive基于hadoop.总

Hive入门学习随笔（二）

====使用Load语句执行数据的导入 --将操作系统上的文件student01.txt数据导入到t2表中 load data local inpath '/root/data/student01.txt' into table t2; --将操作系统上/root/data文件夹下的所有文件导入t3表中,并且覆盖原来的数据 load data local inpath '/root/data/' overwrite into table t3; --将HDFS中,/input/student01

零基础学习hadoop到上手工作线路指导初级篇：hive及mapreduce

此篇是在零基础学习hadoop到上手工作线路指导(初级篇)的基础,一个继续总结.五一假期:在写点内容,也算是总结.上面我们会了基本的编程,我们需要对hadoop有一个更深的理解:hadoop分为hadoop1.X.hadoop2.X,并且还有hadoop生态系统.这里只能慢慢介绍了.一口也吃不成胖子. hadoop 1.x分为mapreduce与hdfs 其中mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑.我们不知道ke

大数据Hadoop核心知识入门学习注意事项

今天来介绍新手学习hadoop的入门注意事项.这篇文章一来谈谈hadoop核心知识学习. 首先hadoop分为hadoop1.X和hadoop2.X,并且还有hadoop生态系统,那么下面我们以hadoop2.x为例进行详细介绍: Hadoop的核心是mapreduce和hdfs. Mapreduce:mapreduce是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了mapreduce程序,但是还是摸不着头脑.我们都知道mapreduce是一种编程模型,那么它能干什么,对我有什么用

Hadoop入门学习笔记---part1

随着毕业设计的进行,大学四年正式进入尾声.任你玩四年的大学的最后一次作业最后在激烈的选题中尘埃落定.无论选择了怎样的选题,无论最后的结果是怎样的,对于大学里面的这最后一份作业,也希望自己能够尽心尽力,好好做.正是因为选题和hadoop有关,现在正式开始学习hadoop.将笔记整理于此,希望与志同道合的朋友共同交流. 作者:itRed 邮箱:[email protected] 个人博客链接:http://www.cnblogs.com/itred 好了,废话不多说.进入正题!开始hadoop的学习

hive的学习入门（飞进数据仓库的小蜜蜂）

前言 hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移. Hive是Facebook的信息平台的重要组成部分,Facebook在2008年将其共献给Apache,现在Hive是Hadoop家族中一款数据仓库产品. Hive最大的特点是:提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以也利用Hadoop进行大数据的操作.就是这一个点,解决了原数

大数据入门学习之Hadoop技术优缺点

(1)Hadoop具有按位存储和处理数据能力的高可靠性. (2)Hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性. (3)Hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性. (4)Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性. .在入门学习大数据的过程当中有遇见学习,行业,缺乏系统学习路线,系统学习规划,欢迎你加入我的大数据学习交流裙:5

Hadoop入门一：Hadoop简介

从数据爆炸开始... 1.1 第三次工业革命第一次:18世纪60年代,手工工厂向机器大生产过渡,以蒸汽机的发明和使用为标志. 第二次:19世纪70年代,各种新技术新发明不断被应用于工业生产,以电力的发明使用为标志. 第三次:20世界四五十年代末,以高新技术为代表的新科学技术革命,以原子能.航天技术和电子计算机为标志. 1.2 信息技术发展带来的数据爆炸纽约证券所交易每天 1TB FaceBook一千亿照片 1PB 腾讯每天 300TB 淘宝每天 pv20亿数据量 50

Hadoop入门学习笔记---part4

紧接着<Hadoop入门学习笔记---part3>中的继续了解如何用java在程序中操作HDFS. 众所周知,对文件的操作无非是创建,查看,下载,删除.下面我们就开始应用java程序进行操作,前提是按照<Hadoop入门学习笔记---part2>中的已经在虚拟机中搭建好了Hadoop伪分布环境:并且确定现在linux操作系统中hadoop的几个进程已经完全启动了. 好了,废话不多说!实际的例子走起. 在myeclipse中新建一个java工程: 在项目工程中新建一个lib包用于存放

猜你喜欢

Mac OS 10.10 php不能连接mysql问题解决

php连接数据库都没问题,升级到10.10这后, 突然连接不上了. 这个问题放了很久, 今天突然搜索到一篇文章. 用链接的方式解决了. 原文如下: So you installed Ubuntu, g ...

Percona Xtrabackup快速备份MySQL

Percona Xtrabackup快速备份MySQL 提交我的评论加载中已评论 Percona Xtrabackup快速备份MySQL 2015-07-10 Linux中国 Linux中国 L ...

关于在php+apache开发过程中使用svn进行版本的维护

应用总是举例 : 在一些项目中,svn可能是一个比较好的原代码管理器.但是很严重的一个问题就是,svn那边存储的文件结构与我们的本地的不相同,他们独特的自己的存储方式.换句话说,也就是在svn的仓库里 ...

入门级的Java Socket代码

在男友手把手的指导下,写出第一个类似于"hello world"的socket程序. 男友要求: 1. 程序以命令行方式运行,在两台联网的电脑上分别运行: 2. 一台电脑的命令行中 ...

网页打开视频没有声音

问题: 今天,领导叫我去给他修理电脑,说是电脑系统出问题了,网页打开视频音频没声音,打开音乐软件,却是正常的. 分析: 当时一听,心想肯定是这领导玩电脑玩的少,不小心点到浏览器的关闭声音的选项了. 到 ...

fkdpbpSpriNgqurtz定时器源码配置

疰憨 fkdpbpSpriNgqurtz定时器源码配置

Winform实现按钮悬停显示提示框

1. 添加工具toolTip. 2.初始化时添加如下代码: toolTip.IsBalloon = true; toolTip.SetToolTip(this.btnTest, "鼠标悬停在 ...

manifest中读取<meta-data>

meta-data在清单文件中主要有以下用法: <application> <meta-data android:value="a1" android ...

Linux 开放端口

需要注意的是在CentOS 6 中防火墙由iptables来管理,在CentOS 7 中防火墙由firewalld来管理. 1. 在CentOS 7 中使用如下命令 firewall-cmd [-- ...

Apache Tomcat Architecture

Architecture Overview Overview This page provides an overview of the Tomcat server architecture. Ter ...

进击的Python【第二十章】

1.Django请求的生命周期路由系统 -> 试图函数(获取模板+数据=>渲染) -> 字符串返回给用户 2.路由系统 /index/ -> 函数或类.as_view() / ...

文件IO一些注意的地方

两个各自独立的进程各自打开同一个文件,则每个进程都有各自的文件表项.这是因为每个进程都有它自己对该文件的当前偏移量.但是对一个给定的文件只有一个v节点表项.lseek()只修改文件表项中的当前文件偏移 ...

Nov 1st-jQuery各种插件

1.表单验证插件——validate 该插件自带包含必填.数字.URL在内容的验证规则,即时显示异常信息,此外,还允许自定义验证规则,插件调用方法如下:$(form).validate({option ...

EasyUI-datagrid-自动合并单元格(转)

1.目标 1.1表格初始化完成后,已经自动合并好需要合并的行: 1.2当点击字段排序后,重新进行合并: 2.实现 2.1 引入插件 /** * author ____′夏悸 * create date ...

java stopwatch 功能

C#中有一个stopwatch的功能,主要是用来监测程序执行时间的.java之前一直都在用如下方式完成: 1 public static void main(String[] args) { 2 lo ...

诠痘谭呵纱磕鸵焕芳透至盒内觅谭

http://i2.feixin.10086.cn/pages/103979/1352554400 http://i2.feixin.10086.cn/pages/101557/1352554413 ...

射频识别技术漫谈(16)——Mifare UltraLight

Mifare UltraLight又称为MF0,从UltraLight(超轻的)这个名字就可以看出来,它是一个低成本.小容量的卡片.低成本,是指它是目前市场中价格最低的遵守ISO14443A协议的芯片 ...

简要描述客户端发送的http request header都包含哪些内容

http://blog.csdn.net/albert528108/article/details/21745167 2014-03-21 21:34 10829人阅读评论(2) 收藏举报分类 ...

【AD】WinXP Win7x86/x64 自动加域脚本更新20151109

注:运行修改计算机的账号必须具有管理员权限 -reboot参数我设置的5,可能会看不到echo y传递的结果,你可以设置成10. http://bbs.51cto.com/thread-968398- ...

python实现虚拟茶话会

这个项目目的是编写一个聊天服务器,该聊天服务器的功能有: 服务器能同时接收来自不同用户的连接允许用户同时操作能够解释命令,例如,say或者logout命令服务器容易扩展这个项目里面我们会使用到 ...

专题

随机推荐

© 2024 憋错料 | info#biecuoliao.com | 11 q. 0.027 s.