Hadoop三大组件以及Hive的基础认知

Hadoop三大组件：

分布式文件系统：HDFS —— 实现将文件分布式存储在很多的服务器上（分布式存储）

分布式运算编程框架：MapReduce——实现多台机器的分布式并行运算。（分布式运算）

分布式资源调度平台：YARN —— 帮用户调度大量的mapreduce程序，并合理分配运算资源

Hive 入门

Hive构建在Hadoop上

HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的所有的数据存储在Hadoop上。

查询计划被转化为 MapReduce 任务(job)，在 Hadoop 中执行（有些查询没有 MR 任务，如：select * from table）

Hadoop和Hive都是用UTF-8编码的

常见数据库（database简称DB）

关系型数据库（关系型数据库就是由二维表及其之间的联系组成的一个数据组织）：

mysql oracle sqlServer postgresql(小oracle)

非关系型数据库：mangodb hbase redis

数据仓库datawarehouse简称DW(数据处理分为两大类，)

数据仓库和数据库的区别：

数据仓库的数据量大，数据库以数据量小

数据仓库可新增但很慢，且复杂并且不能修改删除，一般只用于大批量查询；

数据库支持量小的增删改查

数据仓库是用来分析(OLAP)的，以读操作为主；数据库主要用来处理事务(OLTP)，以写操作为主

联机分析处理:OLAP

联机事务处理:OLTP

数据仓库有哪些？

Hive EMR(阿里) TDW(腾讯) infosfree(IBM) 。。。。。数据仓库产品至少有几十个

数据仓库数据从何而来

1 log包括应用日志，系统日志，web日志（tomcat,ngnix,apache）

2数据库

3 外部（爬虫，外部公司接口）

为什么用hive

1, 开源

2，免费

3，基于hadoop编码格式与其都是UTF-8

tips;ETL数据处理进行数据提取转化

桥接模式。静态IP 异地，需要更改ip 因为和本机是同一网段

NAT模式，动态ip 局域网有自己的虚拟适配器网关，因此无论异地，无需更改

网关一般为192.168.1.1 网络数据传输都需要经过网关

DNS domain name service 域名解析器

浏览地址，一般会先查找系统host文件中是否有对应的，没有才回通过DNS域名解析服务进行查找

Tips 子网掩码的作用是判断该IP是否为同一网段

HDFS dfs -mkdir /xxx

Hive基本语法

基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP（时间戳，年月日时分秒）,DECIMAL（精确小数，保证不会丢失，与钱有关的使用）,CHAR,VARCHAR,DATE（日期：年月日）

元数据（Metadata）

元数据：形容数据的数据 ie:文件的内容是数据，那形容文件的信息如：文件大小、文件位置、文件访问时间、修改时间是元数据

Hive的数据是一张一张的表

Hive的元数据是形容表的数据，表的字段、标的名字、表的位置存放在mysql中

Tips：jps命令：当前虚拟机的java进程

Start-all.sh 启动所有

HQL语句

创建表

hive/ create table nanjing(id int,name string) row format delimited fields terminated by ‘,‘;

hive/ CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);

PARTITIONED 分区

分区可以多级分区

分区字段不是表中字段

不限分区个数

例如：CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (day STRING);

load data local inpath ‘/tmp/record‘ into table record partition(dggg

Hadoo页面本地文件系统目录： /user/hive/warehouse

Hive内部表和外部表

默认创建的表是内部表

如果在创建的时候加上external就是外部表

区别：

内部删除的时候会将数据和元数据一起删除

外部表只删除元数据，数据仍旧保留

外部表比内部表安全，但删除麻烦推荐使用

加载本地数据，同时给定分区信息

hive> LOAD DATA LOCAL INPATH ‘./examples/files/kv2.txt‘ OVERWRITE INTO TABLE invites PARTITION (ds=‘2008-08-15‘);

加载DFS数据，同时给定分区信息hadoop -fs put record/1.txt

hive> LOAD DATA INPATH ‘/user/myname/kv2.txt‘ OVERWRITE INTO TABLE invites PARTITION (ds=‘2008-08-15‘);

Hive的执行引擎

1、local本地模式不在yarn上执行mr,在本地。不是分布式执行

2、Mr mapreduce

3、Spark

4、tez

命令异常详解

ParseException 解析异常

SemanticRxception 语法异常

hive只是一个工具把数据存放在 HDFS中，把元数据存放在mysql中

hive操作查询流程：索引查询顺序，先去mysql 查询表在那个数据库里，发现数据库在HDFS中的指定位置，因此就去HDFS中把文件下载下来，然后在显示在hive工具中。

mysql设置密码

mysqladmin -u root password ‘yourpassword‘

当在hive中创建了一个数据目录，

DBS（database）存放hive中的数据目录路径信息

TBLS 存放hive中的基本表信息

原文地址：https://www.cnblogs.com/zzok/p/11351500.html

时间： 2024-08-05 10:24:59

Hadoop三大组件以及Hive的基础认知的相关文章

分布式计算hadoop三大组件

设计原则:移动计算,而不是移动数据计算层:Map/Reduce调度层:YARN数据层:HDFS 这三层之间没有必然的依赖性,只是经常这么搭配,而且都是hadoop那个包里一起安装的,三层都可以独立运行,某一层或者某两层换成其他的而另外两层或者一层不换也是可以的 YARN 调度系统 ResourceManager NodeManagerHDFS 存放数据 NameNode DataNode 当有一个计算任务到来的时候,首先访问YARN的ResourceManager然后将计算分发给一个或多个No

hadoop三大组件的简单图解

如有不对,欢迎大家指正

java web学习：三大组件 Listener基础

1.概念事件源:被监听的对象 .监听器主要监听三个域对象 ,分别是 request session servletContext 监听器:用来监听某个对象状态变化的组件响应行为:监听器监听的对象相应的状态发生变化时出发的动作. 2.Listener分类在java web中,监听器的种类比较多,可以按照事件源(监听的对象)进行分类,也可以按照监听的动作进行分类.这里按照监听的动作进行分类. (1)监听域对象自身创建和销毁的监听器: ①ServletContextListener接口监听

Hadoop大数据视频教程_零基础实战培训（新增）

Hadoop大数据零基础高端实战培训系列配文本挖掘项目课程分类:大数据适合人群:初级课时数量:230课时+90课程更新程度:完成用到技术:部署Hadoop集群涉及项目:京东商城.百度.阿里巴巴咨询qq:1840215592 大数据Hadoop实战视频教程就从最基础的Java语法.数据库.Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库.HBase.Hive.Pig.ZooKeeper.Chukwa.Hado

Hadoop学习笔记—17.Hive框架学习

一.Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reduce

hadoop三大发行版本-优势-

Hadoop三大发行版本:Apache.Cloudera.Hortonworks. Apache版本最原始(最基础)的版本,对于入门学习最好. Cloudera在大型互联网企业中用的较多. Hortonworks文档较好. Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html 下载地址:https://archive.apache.org/dist/hadoop/common/ Cloudera Hadoop 官网地址:https:/

Struts——三大组件（三）Action

Action Action是Struts中的基础组件.我们学过了Struts的执行流程,处理最终都会调到一个Action类:我们在Action中取得表单数据:进行业务逻辑处理:页面转发.传递等. 一.配置文件 <actionpath="/login" type="struts.LoginAction" name="loginForm" scope="request" > 二.Action代码生成Action后,当

Hadoop、HBase、Hive整合安装文档

前期准备(版本匹配): Hadoop 2.x is faster and includes features, such as short-circuit reads, which will help improve your HBase random read profile. Hadoop 2.x also includes important bug fixes that will improve your overall HBase experience. HBase 0.98 depr

HADOOP docker(四):安装hive

1.hive简介2.安装hive2.1 环境准备2.1.1 下载安装包2.1.2 设置hive用户的环境变量2.1.3 hive服务端配置文件2.1.4 hive客户端配置文件2.1.4 分发hive配置文件2.2 启动hive2.2.1 初始化数据库2.2.2 创建HDFS目录2.2.3 启动hive3.总结 getting start: https://cwiki.apache.org/confluence/display/Hive/GettingStarted hive wiki: htt