如何使用Hive集成Solr?

(一)Hive+Solr简介

Hive作为Hadoop生态系统里面离线的数据仓库,可以非常方便的使用SQL的方式来离线分析海量的历史数据,并根据分析的结果,来干一些其他的事情,如报表统计查询等。 
Solr作为高性能的搜索服务器,能够提供快速,强大的全文检索功能。

(二)为什么需要hive集成solr?

有时候,我们需要将hive的分析完的结果,存储到solr里面进行全文检索服务,比如以前我们有个业务,对我们电商网站的搜索日志使用hive分析完后 存储到solr里面做报表查询,因为里面涉及到搜索关键词,这个字段是需要能分词查询和不分词查询的,通过分词查询可以查看改词的相关的产品在某一段时间内的一个走势图。 有时候,我们又需要将solr里面的数据加载到hive里面,使用sql完成一些join分析功能, 两者之间优劣互补,以更好的适应我们的业务需求。当然网上已经有一些hive集成solr的开源项目,但由于 版本比较旧,所以无法在新的版本里面运行,经过散仙改造修补后的可以运行在最新的版本。

(三)如何才能使hive集成solr?

所谓的集成,其实就是重写hadoop的MR编程接口的一些组件而已。我们都知道MR的编程接口非常灵活,而且高度抽象,MR不仅仅可以从HDFS上加载 数据源,也可以从任何非HDFS的系统中加载数据,当然前提是我们需要自定义: 
InputFormat 
OutputFormat 
RecordReader 
RecordWriter 
InputSplit 
组件,虽然稍微麻烦了点,但从任何地方加载数据这件事确实可以做到,包括mysql,sqlserver,oracle,mongodb, solr,es,redis等等。

上面说的是定制Hadoop的MR编程接口,在Hive里面除了上面的一些组件外,还需要额外定义SerDe组件和组装StorageHandler,在hive里面 SerDe指的是 Serializer and Deserializer,也就是我们所说的序列化和反序列化,hive需要使用serde和fileinput来读写hive 表里面的一行行数据。 
读的流程: 
HDFS files / every source -> InputFileFormat --> --> Deserializer --> Row object 
写的流程: 
Row object --> Serializer --> --> OutputFileFormat --> HDFS files / every source

(四)hive集成solr后能干什么?

(1)读取solr数据,以hive的支持的SQL语法,能进行各种聚合,统计,分析,join等 
(2)生成solr索引,一句SQL,就能通过MR的方式给大规模数据构建索引

(五)如何安装部署以及使用? 
源码在这里,不在粘贴了,已经上传github了,有需要的朋友可以使用 git clonehttps://github.com/qindongliang/hive-solr 后,修改少许pom文件后,执行 
mvn clean package 
命令构建生成jar包,并将此jar包拷贝至hive的lib目录即可

例子如下: 
(1)hive读取solr数据

建表:

Sql代码  

  1. --存在表就删除
  2. drop table  if exists solr;
  3. --创建一个外部表
  4. create external table solr (
  5. --定义字段,这里面的字段需要与solr的字段一致
  6. rowkey string,
  7. sname string
  8. )
  9. --定义存储的storehandler
  10. stored by "com.easy.hive.store.SolrStorageHandler"
  11. --配置solr属性
  12. tblproperties(‘solr.url‘ = ‘http://192.168.1.28:8983/solr/a‘,
  13. ‘solr.query‘ = ‘*:*‘,
  14. ‘solr.cursor.batch.size‘=‘10000‘,
  15. ‘solr.primary_key‘=‘rowkey‘
  16. );
  17. 执行bin/hive 命令,进行hive的命令行终端:
  18. --查询所有数据
  19. select * from solr limit 5;
  20. --查询指定字段
  21. select rowkey from solr;
  22. --以mr的方式聚合统计solr数据
  23. select sname ,count(*) as c from solr group by sname  order by c desc

(2)使用hive给solr构建索引的例子

首先构建数据源表:

Sql代码  

  1. --如果存在就删除
  2. drop table if exists index_source;
  3. --构建一个数据表
  4. CREATE TABLE index_source(id string, yname string,sname string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘ STORED AS TEXTFILE;
  5. --向数据源里面导入本地数据
  6. load  data local inpath ‘/ROOT/server/hive/test_solr‘ into table index_source;
  7. 其次,构建solr的关联表:
  8. --删除已经存在的表
  9. drop table  if exists index_solr;
  10. --创建关联solr表
  11. create external table index_solr (
  12. id string,
  13. yname string,
  14. sname string
  15. )
  16. --定义存储引擎
  17. stored by "com.easy.hive.store.SolrStorageHandler"
  18. --设置solr服务属性
  19. tblproperties(‘solr.url‘ = ‘http://192.168.1.28:8983/solr/b‘,
  20. ‘solr.query‘ = ‘*:*‘,
  21. ‘solr.cursor.batch.size‘=‘10000‘,
  22. ‘solr.primary_key‘=‘id‘
  23. );

最后,执行下面的sql命令,即可给数据源中的数据,构建solr索引:

Sql代码  

  1. --注册hive-solr的jar包,否则MR方式运行的时候,将不能正常启动
  2. add jar /ROOT/server/hive/lib/hive-solr.jar;
  3. --执行插入命令
  4. INSERT OVERWRITE TABLE index_solr SELECT * FROM  index_source ;
  5. --执行成功之后,即可在solr的终端界面查看,也可以再hive里面执行下面的solr查询
  6. select * from index_solr limit 10 ;

(六)他们还能其他的框架集成么?

当然,作为开源独立的框架,我们可以进行各种组合, hive也可以和elasticsearch进行集成,也可以跟mongodb集成, solr也可以跟spark集成,也可以跟pig集成,但都需要我们自定义相关的组件才行,思路大致与这个项目的思路一致。

(七)本次测试通过的基础环境

Apache Hadoop2.7.1 
Apache Hive1.2.1 
Apache Solr5.1.0

(八)感谢并参考的资料:

https://github.com/mongodb/mongo-hadoop/tree/master/hive/src/main/java/com/mongodb/hadoop/hive 
https://github.com/lucidworks/hive-solr 
https://github.com/chimpler/hive-solr 
https://cwiki.apache.org/confluence/display/Hive/DeveloperGuide#DeveloperGuide-HowtoWriteYourOwnSerDe

时间: 2024-08-12 16:59:38

如何使用Hive集成Solr?的相关文章

Hive集成HBase;安装pig

Hive集成HBase 配置 将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2* rm -rf hbase-0.92* cp /opt/hbase/hbase-0.94.2* 将Hive的lib/中的zookeeper.jar包用HBase中lib/中的替换掉 步骤同上 在hive-site.xml中添加: <property> <name>hive.aux.jars.path&l

Hive集成Mysql作为元数据时,提示错误:Specified key was too long; max key length is 767 bytes

在进行Hive集成Mysql作为元数据过程中,做完所有安装配置工作后,进入到hive模式,执行show databases:执行正常,接着执行show tables:时却报错. 关键错误信息如下: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes) 具体操作信息如下: hive> show databases; OK

hadoop、spark、hive、solr、es与YDB在车辆即席分析上的对比分析

自2012年以来,公安部交通管理局在全国范围内推广了机动车缉查布控系统(简称卡口系统),通过整合共享各地车辆智能监测记录等信息资源,建立了横向联网.纵向贯通的全国机动车缉查布控系统,实现了大范围车辆缉查布控和预警拦截.车辆轨迹.交通流量分析研判.重点车辆布控.交通违法行为甄别查处及侦破涉车案件等应用.在侦破肇事逃逸案件.查处涉车违法行为.治安防控以及反恐维稳等方面发挥着重要作用. 随着联网单位和接入卡口的不断增加,各省市区部署的机动车缉查布控系统积聚了海量的过车数据.截至目前,全国32个省(区.

hive集成sentry的sql使用语法

Sentry权限控制通过Beeline(Hiveserver2 SQL 命令行接口)输入Grant 和 Revoke语句来配置.语法跟现在的一些主流的关系数据库很相似.需要注意的是:当sentry服务启用后,我们必须使用beeline接口来执行hive查询,Hive Cli并不支持sentry. CREATE ROLE Statement CREATE ROLE语句创建一个可以被赋权的角色.权限可以赋给角色,然后再分配给各个用户.一个用户被分配到角色后可以执行该角色的权限. 只有拥有管理员的角色

挖坑:hive集成kerberos

2019-01-02 14:14:45,161 ERROR [HiveServer2-Handler-Pool: Thread-37]: transport.TSaslTransport (TSaslTransport.java:open(315)) - SASL negotiation failure javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSException: Failure unspecifi

Spring集成Solr搜索引擎

1.导入jar包<dependency><groupId>org.apache.solr</groupId><artifactId>solr-solrj</artifactId><version>4.10.2</version></dependency><dependency><groupId>commons-logging</groupId><artifactId&g

Hive安装与部署集成mysql

前提条件: 1.一台配置好hadoop环境的虚拟机.hadoop环境搭建教程:稍后补充 2.存在hadoop账户.不存在的可以新建hadoop账户安装配置hadoop. 安装教程: 一.Mysql安装 1.安装mysql命令:Yum install mysql-server -y (-y参数作用为所有需要输入yes的地方默认yes) 2.打开mysql服务:Service mysqld start 3.设置mysql服务开机自启动(也可以不设置,开机手动启动):chkconfig –add my

Solr 文章集成

Solr 文章集成 solr原理 分布式全文检索系统SolrCloud简介 http://my.oschina.net/004/blog/175768 构建索引分词. Solr之中文分词. http://blog.csdn.net/zhu_tianwei/article/details/46711511 query分词. Solr 使用自定义 Query Parser http://blog.chenlb.com/2010/08/solr-use-custom-query-parser.html

hive 与mysql集成安装

Hive集成Mysql作为元数据 默认情况下,Hive元数据保存在内嵌的 Derby 数据库中,只能允许一个会话连接,只适合简单的测试.为了支持多用户多会话,则需要一个独立的元数据库,我们使用 MySQL 作为元数据库,Hive 内部对 MySQL 提供了很好的支持,配置一个独立的元数据库需要增加以下几步骤: 第一步:安装MySQL服务器端和MySQL客户端,并启动MySQL服务.此步省略,具体请看http://www.cnblogs.com/linjiqin/archive/2013/03/0