Hadoop三大组件以及Hive的基础认知

Hadoop三大组件:

分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上(分布式存储)

分布式运算编程框架:MapReduce——实现多台机器的分布式并行运算。(分布式运算)

分布式资源调度平台:YARN —— 帮用户调度大量的mapreduce程序,并合理分配运算资源

Hive 入门

Hive构建在Hadoop上

HQL中对查询语句的解释、优化、生成查询计划是由Hive完成的所有的数据存储在Hadoop上。

查询计划被转化为 MapReduce 任务(job),在 Hadoop 中执行(有些查询没有 MR 任务,如:select * from table)

Hadoop和Hive都是用UTF-8编码的

常见数据库(database简称DB)

关系型数据库(关系型数据库就是由二维表及其之间的联系组成的一个数据组织):

mysql oracle sqlServer postgresql(小oracle)

非关系型数据库:mangodb hbase redis

数据仓库datawarehouse简称DW(数据处理分为两大类,)

数据仓库和数据库的区别:

数据仓库的数据量大,数据库以数据量小

数据仓库可新增但很慢,且复杂并且不能修改删除,一般只用于大批量查询;

数据库支持量小的增删改查

数据仓库是用来分析(OLAP)的,以读操作为主;数据库主要用来处理事务(OLTP),以写操作为主

联机分析处理:OLAP

联机事务处理:OLTP

数据仓库有哪些?

Hive EMR(阿里)  TDW(腾讯)  infosfree(IBM) 。。。。。数据仓库产品至少有几十个

数据仓库数据从何而来

1 log包括应用日志,系统日志 ,web日志(tomcat,ngnix,apache)

2数据库

3 外部(爬虫,外部公司接口)

为什么用hive

1, 开源

2,免费

3,基于hadoop编码格式与其都是UTF-8

tips;ETL数据处理 进行数据提取转化

桥接模式。  静态IP 异地,需要更改ip  因为和本机是同一网段

NAT模式,动态ip  局域网   有自己的虚拟适配器网关,因此无论异地,无需更改

网关一般为192.168.1.1 网络数据 传输都需要经过网关

DNS  domain name service 域名解析器

浏览地址,一般会先查找系统host文件中是否有对应的,没有才回通过DNS域名解析服务进行查找

Tips  子网掩码的作用是判断该IP是否为同一网段

HDFS dfs -mkdir /xxx

Hive基本语法

基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP(时间戳,年月日时分秒),DECIMAL(精确小数,保证不会丢失,与钱有关的使用),CHAR,VARCHAR,DATE(日期:年月日)

元数据(Metadata)

元数据:形容数据的数据 ie:文件的内容是数据,那形容文件的信息如:文件大小、文件位置、文件访问时间、修改时间是元数据

Hive的数据是一张一张的表

Hive的元数据是形容表的数据,表的字段、标的名字、表的位置存放在mysql中

Tips:jps命令:当前虚拟机的java进程

Start-all.sh 启动所有

HQL语句

创建表

hive/   create table nanjing(id int,name string) row format delimited fields terminated by ‘,‘;

hive/ CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);

PARTITIONED 分区

分区可以多级分区

分区字段不是表中字段

不限分区个数

例如:CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (day STRING);

load data local inpath ‘/tmp/record‘ into table record partition(dggg

Hadoo页面本地文件系统目录 : /user/hive/warehouse

Hive内部表和外部表

默认创建的表是内部表

如果在创建的时候加上external就是外部表

区别:

内部删除的时候 会将数据和元数据一起删除

外部表只删除元数据,数据仍旧保留

外部表比内部表安全,但删除麻烦 推荐使用

加载本地数据,同时给定分区信息

hive> LOAD DATA LOCAL INPATH ‘./examples/files/kv2.txt‘ OVERWRITE INTO TABLE invites PARTITION (ds=‘2008-08-15‘);

加载DFS数据 ,同时给定分区信息hadoop -fs put  record/1.txt

hive> LOAD DATA INPATH ‘/user/myname/kv2.txt‘ OVERWRITE INTO TABLE invites PARTITION (ds=‘2008-08-15‘);

Hive的执行引擎

1、local本地模式 不在yarn上执行mr,在本地。不是分布式执行

2、Mr mapreduce

3、Spark

4、tez

命令异常详解

ParseException 解析异常

SemanticRxception 语法异常

hive只是一个工具 把数据存放在 HDFS中,把元数据存放在mysql中

hive操作查询流程: 索引查询顺序,先去mysql 查询表在那个数据库里,发现数据库在HDFS中的指定位置,因此就去HDFS中 把文件下载下来 ,然后在显示在hive工具中。

mysql设置密码

mysqladmin -u root password ‘yourpassword‘

当在hive中创建了一个数据目录,

DBS(database)存放hive中的数据目录路径信息

TBLS 存放hive中的基本表信息

原文地址:https://www.cnblogs.com/zzok/p/11351500.html

时间: 2024-08-05 10:24:59

Hadoop三大组件以及Hive的基础认知的相关文章

分布式计算hadoop三大组件

设计原则:移动计算,而不是移动数据 计算层:Map/Reduce调度层:YARN数据层:HDFS 这三层之间没有必然的依赖性,只是经常这么搭配,而且都是hadoop那个包里一起安装的,三层都可以独立运行,某一层或者某两层换成其他的而另外两层或者一层不换也是可以的 YARN 调度系统 ResourceManager NodeManagerHDFS 存放数据 NameNode DataNode 当有一个计算任务到来的时候,首先访问YARN的ResourceManager然后将计算分发给一个或多个No

hadoop三大组件的简单图解

如有不对,欢迎大家指正

java web学习:三大组件 Listener基础

1.概念 事件源:被监听的对象 .监听器主要监听三个域对象 ,分别是 request  session  servletContext 监听器:用来监听某个对象状态变化的组件 响应行为:监听器监听的对象相应的状态发生变化时出发的动作. 2.Listener分类 在java web中,监听器的种类比较多,可以按照事件源(监听的对象)进行分类,也可以按照监听的动作进行分类.这里按照监听的动作进行分类. (1)监听域对象自身创建和销毁的监听器: ①ServletContextListener接口 监听

Hadoop大数据视频教程_零基础实战培训(新增)

Hadoop大数据零基础高端实战培训系列配文本挖掘项目课程分类:大数据适合人群:初级课时数量:230课时+90课程更新程度:完成用到技术:部署Hadoop集群 涉及项目:京东商城.百度.阿里巴巴 咨询qq:1840215592 大数据Hadoop实战视频教程就从最基础的Java语法.数据库.Linux讲起到深入Hadoop大数据技术所必须的所有知识,设计Hadoop生态圈所有常用组件,包括但不限于:Greenplum数据库.HBase.Hive.Pig.ZooKeeper.Chukwa.Hado

Hadoop学习笔记—17.Hive框架学习

一.Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL  查询语言,称为 QL ,它允许熟悉 SQL  的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper  和 reducer 来处理内建的 mapper 和 reduce

hadoop三大发行版本-优势-

Hadoop三大发行版本:Apache.Cloudera.Hortonworks. Apache版本最原始(最基础)的版本,对于入门学习最好. Cloudera在大型互联网企业中用的较多. Hortonworks文档较好. Apache Hadoop 官网地址:http://hadoop.apache.org/releases.html 下载地址:https://archive.apache.org/dist/hadoop/common/ Cloudera Hadoop 官网地址:https:/

Struts——三大组件(三)Action

Action Action是Struts中的基础组件.我们学过了Struts的执行流程,处理最终都会调到一个Action类:我们在Action中取得表单数据:进行业务逻辑处理:页面转发.传递等. 一.配置文件 <actionpath="/login" type="struts.LoginAction" name="loginForm" scope="request" > 二.Action代码 生成Action后,当

Hadoop、HBase、Hive整合安装文档

前期准备(版本匹配): Hadoop 2.x is faster and includes features, such as short-circuit reads, which will help improve your HBase random read profile. Hadoop 2.x also includes important bug fixes that will improve your overall HBase experience. HBase 0.98 depr

HADOOP docker(四):安装hive

1.hive简介2.安装hive2.1 环境准备2.1.1 下载安装包2.1.2 设置hive用户的环境变量2.1.3 hive服务端配置文件2.1.4 hive客户端配置文件2.1.4 分发hive配置文件2.2 启动hive2.2.1 初始化数据库2.2.2 创建HDFS目录2.2.3 启动hive3.总结 getting start: https://cwiki.apache.org/confluence/display/Hive/GettingStarted hive wiki: htt