内容:
1、Hive本质解析;
2、Hive安装实战;
3、使用Hive操作搜索引擎数据实战;
==========Hive本质到底是什么?============
1、Hive是分布式数据仓库,同时又是查询引擎,所以 Spark SQL取代只是Hive 查询引擎,在企业实际生产环境下 Hive + Spark SQL是目前最为经典的数据分析组合;
2、Hive本身就是一个简单单机版本的软件,主要负责:
1) 把HQL翻译成Mapper(s)-Reducer-Mapper(s)的代码; 并且可能产生很多MapReduce的Job;
2) 把生产的MapReduce代码及相关资源打包成为Jar并发布到Hadoop集群中且进行运行(这一切都是自动的);
3、Hive本身的架构如下所示:
==========Hive安装和配置实战============
1、我们使用的 Hive 1.2.1版本;
2、Hive默认情况下放元数据的是 Derby,遗憾的是Derby 是单用户,所以在生产环境下一般会采用支持多用户的数据库来进行 Meta Store,且进行Master-Slaves 主从读写分离和备份;我们最常使用 MySQL
3、在hive-site.xml中指定Hive数据仓库的具体存储:
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
<description>location of default database for the warehouse</description>
</property>
4、MySQL的安装和配置;
5、Hive的表有两种基本类型:一种内部表(这种表数据属于 Hive本身,言外之意是如果原来的数据在 HDFS的其它地方,此时数据会通过 HDFS移动到Hive 数据仓库所在的目录,如果删除 Hive中的该表的话数据和元数据均会被删除)另外一种属于外部表(这种表数据不属于 Hive数据仓库,元数据中会表达具体数据在哪里,使用的时候和内部表的使用是一样的,只是如果通过 Hive去删除的话,此时删除的只是元数据,本没有删除数据本身);
==========使用Hive操作搜索引擎数据实战 ============
王家林老师名片:
中国Spark第一人
新浪微博:http://weibo.com/ilovepains
微信公众号:DT_Spark
博客:http://blog.sina.com.cn/ilovepains
手机:18610086859
QQ:1740415547
邮箱:[email protected]