hive 自我介绍

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

目录


1Hive定义


2Hive 体系结构

? 用户接口
? 元数据存储
? 解释器、编译器、优化器、执行器
? Hadoop

3Hive 的数据存储

1Hive定义编辑

Hive[1] 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。

2Hive 体系结构编辑

主要分为以下几个部分:

用户接口

用户接口主要有三个:CLI,Client 和 WUI。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 副本。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。

元数据存储

Hive 将元数据存储在数据库中,如 mysql、derby。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

解释器、编译器、优化器、执行器

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后由 MapReduce 调用执行。

Hadoop

Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(不包含 * 的查询,比如 select * from tbl 不会生成 MapReduce 任务)。

3Hive 的数据存储编辑

首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。

其次,Hive 中所有的数据都存储在 HDFS 中,Hive 中包含以下数据模型:表(Table),外部表(External Table),分区(Partition),桶(Bucket)。

Hive 中的 Table 和数据库中的 Table 在概念上是类似的,每一个 Table 在 Hive 中都有一个相应的目录存储数据。例如,一个表 pvs,它在 HDFS 中的路径为:/wh/pvs,其中,wh 是在 hive-site.xml 中由 ${hive.metastore.warehouse.dir} 指定的数据仓库的目录,所有的 Table 数据(不包括 External Table)都保存在这个目录中。

Partition 对应于数据库中的 Partition 列的密集索引,但是 Hive 中 Partition 的组织方式和数据库中的很不相同。在 Hive 中,表中的一个 Partition 对应于表下的一个目录,所有的 Partition 的数据都存储在对应的目录中。例如:pvs 表中包含 ds 和 city 两个 Partition,则对应于 ds = 20090801, ctry = US 的 HDFS 子目录为:/wh/pvs/ds=20090801/ctry=US;对应于 ds = 20090801, ctry = CA 的 HDFS 子目录为;/wh/pvs/ds=20090801/ctry=CA

Buckets 对指定列计算 hash,根据 hash 值切分数据,目的是为了并行,每一个 Bucket 对应一个文件。将 user 列分散至 32 个 bucket,首先对 user 列的值计算 hash,对应 hash 值为 0 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00000;hash 值为 20 的 HDFS 目录为:/wh/pvs/ds=20090801/ctry=US/part-00020

External Table 指向已经在 HDFS 中存在的数据,可以创建 Partition。它和 Table 在元数据的组织上是相同的,而实际数据的存储则有较大的差异。

Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。

  • External Table 只有一个过程,加载数据和创建表同时完成(CREATE EXTERNAL TABLE ……LOCATION),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除元数据,表中的数据不会真正被删除。

hive 自我介绍

时间: 2024-08-23 00:40:45

hive 自我介绍的相关文章

老男孩IT教育在线3期的学习自我介绍与决心书

哈喽,大家好!我叫代少齐,来自北京,学历大专,专业是地理信息系统应用与开发,上次的自我介绍不知道是什么时候了,很感谢老男孩给我这次机会.工作三年了,90后的我刚走出校园时,自信满满,对生活充满了希望.(*^__^*) 嘻嘻--.我的第一份工作干的地图的二次开发,这个行业不是很吃香,干开发的这一年学到了很多知识和经验,有喜有忧.喜是学到很多工作经验和为人处世,忧是做事情比别人慢半拍而且逻辑思维不强,学的很痛苦.正因为这我不得不辞掉开发的工作,后来找了份测试相关的行业,那是第一次接触Linux操作系

剑指Offer——如何做好自我介绍

剑指Offer--如何做好自我介绍 前言 自我特点+经历梳理 ??各位老师好,我叫某某某,研究生三年级,就读于某某大学信息科学与工程学院软件工程专业.主要使用的开发语言是Java,熟悉基本数据结构和基本算法实现:熟悉MySQL数据库:掌握Linux基本操作命令:所参与的主要项目有"立马送药","鲜花礼品网","基于Android实现的购彩系统"和"我看看"购物分享Android APP.其中,"立马送药"的

老男孩Linux高薪运维网络培训全程班3期 自我介绍和决心书

自我介绍 各位老男孩网络班3期朋友,你们好,我叫吴庆旺,是一位网管屌丝男,2009年出来工作,基本算是从事网管工作吧(虽然每家公司职称不一样,但负责事情都差不多)事情多.杂.乱. 几十人,到几百人互联网公司电脑维护:网站seo推广优化:课程录影.拍摄.后期剪辑调色都做过,但还是感觉前途比较迷茫. 虽然在很早时候就在51cto注册会员,但报名参加系统运维培训也是最近才下定决心. 我要摆脱这种苦恼 我要开始新的人生规划 我要高薪 我要让看不起我的同事朋友后悔 我需要老男孩运维培训 决心书 通过这次老

参加老男孩Linux社会培训——自我介绍和决心书

自我介绍 大家好, 我叫张鑫,27岁,单身男.2012年农业大学毕业,四年光阴,实属荒废,无一技之长.毕业后回到安徽老家,在一家外贸公司做了三年外贸业务员,主要从事英语翻译,外国客户参观.验厂招待等行政后勤方面的工作. 这家工贸一体的公司作为大陆贴牌生产(OEM)制造业的缩影,工人微薄可怜的薪水,极其恶劣的工作环境,简单重复无趣的工作内容和老外极高水平的待遇福利形成鲜明的对比.老外严谨的工作态度,一丝不苟的敬业精深,扎实博学的专业技能令我望洋兴叹,这才是工匠精神.在和老外的闲聊中,深刻认识到,没

51CTO学院Python高级自动化开发工程师微职位学员自我介绍

51CTO学院Python高级自动化开发工程师微职位 自我介绍及学习宣言 亲爱的小伙伴:欢迎大家报名51CTO学院&老男孩Alex Python高级自动化开发工程师微职位学习,跟随alex.武sir学习屌炸天的python技术,成就技术大牛之梦.为了督促大家一直积极认真努力的学习,请各位同学在跟帖写出你的自我介绍.学习宣言,不忘初心,一直跟着老师一步一个脚印,扎扎实实学本领. 跟帖格式:我是xxx,我参加了51CTO学院&老男孩Alex Python高级自动化开发工程师微职位学习,从201

一个看上去像是自我介绍的东西

既然有人要看,那我就弄一个看上去像是自我介绍的东西吧 本渣学名李云涛,被生物学家鉴定为猿与狮之间的奇特生物,存在工作模式和一般模式两种状态.常年居住于沙发和座椅之间,喜好吃和睡,移动速度缓慢. 下图为工作模式下本生物的存在示例. 在吃饭和睡觉时,本生物会恢复一般形态,如下图. (喂喂喂!关注点不是应该在后面的楼吗!) 竟然真的有人看到了这里,那我就再写一个我不为人知的生活习性吧. 本生物特长为作死,尤其擅长作大死.如果读者希望了解更多花样作死技巧,欢迎和本生物联系. 联系方式为: email:[

oldboy自我介绍以及决心书

自我介绍 大家好,我是来自云南滇中小城玉溪的李洋,很高兴认识各位老师以及各位同学. 大学我学习的专业是网络工程,学校中学习的知识,很大一部分都是从计算机的基本原理,到操作系统,再到网络,再到各个方面,都有涉及. 目前毕业两年的我,在一家系统集成公司工作.在毕业的这两年中,我深切体会到了,作为计算机体系中重要的一环,操作系统层面的工作已经在实际工作中越来越多.不了解其原理,不会操作,以及和其有关的新技术,都会成为我今后工作中的瓶颈.经常上51cto的我,希望能够找到一个可以系统的学习目前操作系统最

it工程师常用英文自我介绍常用用语

Good morning ! It is really my honor to have this opportunity for an interview, I hope i can make a good performance today. I'm confident that I can succeed. Now i will introduce myself briefly I am 26 years old,born in shandong province . I was grad

第一次作业-第五组自我介绍

我们是现代软件工程课中的第五组,小组中既有来自软件的同学也有来自计算机的同学,因此我们互相也并不熟悉,通过这次自我介绍的机会,我们也可以互相了解,希望能够在接下来的课程学习中合作学习共同进步,在课上取得满意的成果.接下来,请各位成员来介绍自己吧. (o′ω`o)? 姓名:王若琪 性别:女 学院:软件学院 学习情况:我本科毕业于北京交通大学软件学院,因此在本科就接受过许多软件工程方面的知识,比如开发语言的学习.软件体系结构.软件测试等等课程,但是比较可惜的是练就了不错的纸上功夫,真正实践起来的水平