Solr实战:使用Hue+Solr实现标签查询

公司最近在研究多条件组合查询方案,Google的一位技术专家Sam和我们讨论了几个备选方案。

Sam的信:

我做了进一步研究,目前有这么几种做法:

1) 最直接粗暴,只做一个主index,比如按行业+地区做一个index,这样来说的话,无论多少个标签的查询,直接先用主index做一个筛选,这样下来可能只有少于10w个row,然后对这10w个一个个filtering,这种做法可能能够满足大部分需求。当然,这种做法需要用到cache来优化,否则每次都去DB load会影响数据库的performance。但是初期直接使用数据库做查询也不是不可以。(这取决于数据量和查询的频率)。

2)使用淘宝的做法, 这种做法是自己来做indexing然后merge,是最强大的,但是开发上可能需要时间较长。

3)使用search engine。我昨天碰上airbnb的一个工程师,正好是做搜索的,他们最开始就是使用的方式1),每个search用邮编filter后其实没有多少房子,所以最简单,后来改用了search engine能提供更多功能。http://www.solrtutorial.com/solr-in-5-minutes.html 是一个简单的tutorial,做一个prototype应该很快(一天?)。http://www.solrtutorial.com/solr-query-syntax.html 是solr engine的查询语法。也能支持 范围查询(比如,消费能力是150元到300元之间)

当然,从原理上来说,2)和3)其实是一样的,多个index的数据集做集合运算。不过3)是在2)上面包了一层。

上面是我的研究结果,供你们参考。

我的回信:

嗨,Sam:

你好!

上封邮件中提到的方案三,收到邮件后我就开始在基于Cloudera的Solr组件做原型验证。

如下例子中拿call客记录当源数据:

{"callSeconds":31,"phone":"189xxxxxxxx","callTime":1480398756000,"callerName":"张三","audioPath":"CB01216021100259_5791b1d70cf2c74aa63c0c25_18968168005_20161129135204.3gpp","canAssign":true,"intent":"B类接通无需求","id":"583d17a444f4f4cb88e3c778","callerId":"57a0678b44f468afd0ee0bac","account":"恒大","strId":"583d17a444f4f4cb88e3c778","merchantId":"5791b1d70cf2c7a4aa63c0c25"}

对每个字段都建索引,用Cloudera的图形化工具Hue可以连到solr查询数据和图表:

Filter过滤以及柱状图,折线图,饼图等主要展示形式都有,其他的还有几个功能暂时还没有用到。

例如查询某caller客的所有去电的意向分布情况:

先找出CallerId=57a0678b44f468afd0ee0bac的记录,再按intent查饼图。

待解决问题:

1.新增字段,新增Tag

新增字段:可以用DynamicFileds在导入数据的时候动态新增索引字段。

新增Tag:每个标签作为一个DynamicFileds

2.历史数据和Kafka中的实时数据导入Solr

实时数据:

1)Kafka消费+SolrJ写入。(需要启额外进程)

2)Kafka+Flume+Morphline。(需定制实现一个Morphline)

方案2)比较好的点是由集群保证鲁棒性。

历史数据:原始数据先导入到HDFS,CDH有工具支持Spark/MapReduce+Morphline导HDFS数据到Solr。

原文地址:http://www.cnblogs.com/arli/p/6138755.html

时间: 2024-10-13 20:30:16

Solr实战:使用Hue+Solr实现标签查询的相关文章

solr实战

实现用户数据索引及查询 启动solr solr start 创建collection solr create -c user schema中添加field 3.1 solr-5.2.1/server/solr/user/conf/managed-schema中添加 <field name="id" type="string" indexed="true" stored="true" required="true

solr进阶九:solr对数字和单个字符的搜索

solr中配有分词器,但分词器里面有大写转换为小写的过滤器时,数字就会被过滤.比如123中国ABC.123就会被过滤掉了,所以才查1|12|123都会失败. <Solr 数字字符不能搜索的一个问题>这篇博文说得还算详细,我就是学这篇文章的. 根据账号来搜索,当账号在数据库中是整型变量时,导入到solr中,配置单个数字的过滤字段时,是搜索不出任何信息的,这不知什么原因,有时间要好好研究一下schema.xml这个配置文件先. 在schema.xml这个配置文件中加入字段类型: <field

solr学习笔记一------solr的安装

自己整理了一天,终于将solr配置成功,我使用的是Tomcat7+solr4.7.2. 第一步,配置好tomcat,保证tomcat可以正常运行,将下载好的solr解压. solr解压目录: 第二步,将dist中的 solr-4.7.2.war 文件复制到tomcat安装目录中的webapps下. 第三步,在E盘新建文件夹solr,将solr解压目录下的\example\solr的所有文件复制到新建的solr文件夹中. 第四步,在tomcat安装目录中的\conf\Catalina\localh

Solr自学笔记 2 —— Solr 查询,排序, 高亮

1.查询(Querying Data) --q 文档 fl 表示相应的属性 1) 内容: 搜索过程是通过带q参数的GET HTTP请求select URL.同时可以通过传递表示可选择的请求参数的数字给请求处理器来控制相应的返回信息.(You can pass a number of optional request parameters to the request handler to control what information is returned) 下面f1参数来控制相应的返回的属

solr实战-(一)

实现用户数据索引及查询 1. 启动solr solr start 2. 创建collection solr create -c user 3. schema中加入field 3.1 solr-5.2.1/server/solr/user/conf/managed-schema中加入 <!--定义IK分词类型--> <fieldType name="text_ik" class="solr.TextField"> <!--索引时候的分词器

solr实战1

实现用户数据索引及查询 1. 启动solr solr start 2. 创建collection solr create -c user 3. schema中添加field 3.1 solr-5.2.1/server/solr/user/conf/managed-schema中添加 <!--定义IK分词类型--> <fieldType name="text_ik" class="solr.TextField"> <!--索引时候的分词器

Solr中使用游标进行深度分页查询以提高效率(适用的场景下)

通常,我们的应用系统,如果要做一次全量数据的读取,大多数时候,采用的方式会是使用分页读取的方式,然而 分页读取的方式,在大数据量的情况下,在solr里面表现并不是特别好,因为它随时可能会发生OOM的异常,在solr里面 通过rows和start参数,非常方便分页读取,但是如果你的start=1000000 rows=10,那么solr里面会将前面100万元数据的索引信息读取在内存里面,这样以来,非常耗内存,所以在solr里面,分页并不适合深度分页. 深度分页在solr里面,更推荐使用游标的方式,

(solr系列:五) solr定时实时重建索引和增量更新

将mysql中的数据导入到了solr中之后,如果数据库中的数据有变动,solr中还是第一次导入的旧的数据,那该如何是好呢?该如何实现mysql数据库中的数据定时同步到solr中呢?下面将做详细的介绍. 准备工作要做好: 1.下载jar包:solr-dataimportscheduler-1.1.jar http://pan.baidu.com/s/1hsySs2S 2.新建文件:dataimport.properties,文件复制下面的就好,具体配置含义已给出注释: ##############

Solr学习之二-Solr基础知识

一 基本说明 简单来说Solr是基于Lucene的高性能的,开源的Java企业搜索服务器.Solr可以看作一个Web app,运行在tomcat或Jetty这类HTTP服务器上, 底层是一个基于Lucene的搜索引擎,还附加一个Solr的基本管理界面.Solr提供HTTP服务,通过Get方法进行查询,通过Post方法进行索引的添加/删除管理. 一般来说Solr的查询时通过Get方法请求到HTTP服务器的solr这个app下的/select对应的servlet上去,而添加等操作时通过POST方法到