60分钟内从零起步驾驭Hive实战

内容：

1、Hive本质解析；

2、Hive安装实战；

3、使用Hive操作搜索引擎数据实战；

==========Hive本质到底是什么？============

1、Hive是分布式数据仓库，同时又是查询引擎，所以 Spark SQL取代只是Hive 查询引擎，在企业实际生产环境下 Hive + Spark SQL是目前最为经典的数据分析组合；

2、Hive本身就是一个简单单机版本的软件，主要负责：

1) 把HQL翻译成Mapper(s)-Reducer-Mapper(s)的代码；并且可能产生很多MapReduce的Job；

2) 把生产的MapReduce代码及相关资源打包成为Jar并发布到Hadoop集群中且进行运行（这一切都是自动的）；

3、Hive本身的架构如下所示：

==========Hive安装和配置实战============

1、我们使用的 Hive 1.2.1版本；

2、Hive默认情况下放元数据的是 Derby，遗憾的是Derby 是单用户，所以在生产环境下一般会采用支持多用户的数据库来进行 Meta Store，且进行Master-Slaves 主从读写分离和备份；我们最常使用 MySQL

3、在hive-site.xml中指定Hive数据仓库的具体存储：

<name>hive.metastore.warehouse.dir</name>

<value>/user/hive/warehouse</value>

<description>location of default database for the warehouse</description>

</property>

4、MySQL的安装和配置；

5、Hive的表有两种基本类型：一种内部表（这种表数据属于 Hive本身，言外之意是如果原来的数据在 HDFS的其它地方，此时数据会通过 HDFS移动到Hive 数据仓库所在的目录，如果删除 Hive中的该表的话数据和元数据均会被删除）另外一种属于外部表（这种表数据不属于 Hive数据仓库，元数据中会表达具体数据在哪里，使用的时候和内部表的使用是一样的，只是如果通过 Hive去删除的话，此时删除的只是元数据，本没有删除数据本身）；

==========使用Hive操作搜索引擎数据实战 ============

王家林老师名片：

中国Spark第一人

新浪微博：http://weibo.com/ilovepains

微信公众号：DT_Spark

博客：http://blog.sina.com.cn/ilovepains

手机：18610086859

QQ：1740415547

邮箱：[email protected]

时间： 2024-10-25 20:45:23

60分钟内从零起步驾驭Hive实战

60分钟内从零起步驾驭Hive实战的相关文章

60分钟内从零起步驾驭Hive实战学习笔记

60分钟零基础体验java项目开发(附源代码)

（转）大牛的《深度学习》笔记，60分钟带你学会Deep Learning。

用十条命令在一分钟内检查 Linux 服务器性能

转： Vue.js——60分钟组件快速入门（上篇）

用十条命令在一分钟内检查Linux服务器性能

iOS开发60分钟入门

Vue.js 60 分钟快速入门

用十条命令在一分钟内检查Linux服务器性能[转]