Result Grouping / Field Collapsing-结果分组

WiKi:http://wiki.apache.org/solr/FieldCollapsing

Introduction

  字段折叠和结果分组是考虑相同solr功能的两种不同的方式.

  字段折叠折叠一组具有相同字段值的结果到一个单个(或固定数量)的条目(实体)中.例如,大多数搜索引擎如谷歌聚合站点,所以只有一个或两个条目显示,然后点击这个站点连接,用户可以查阅来自这个站点的更多结果.字段折叠还具有抑制重复的文件的功能.

  结果分组使用普通的字段值将文档分为多组.返回每组文档的前几个文档.一个常见的例子就是搜索购买率比较高的term,如DVD,这里展示了每组分类("TVs & Video","Movies","Computers"等)的前3个结果.

Quick Start  

  现在我们发送一个查询请求给solr,然后打开结果分组,我们首先试着对manu_exact字段分组,你目前只能分组为单值字段:

  ...&q=solr+memory&group=true&group.field=manu_exact

返回分组响应结果:

[...]
  "grouped":{
    "manu_exact":{
      "matches":6,
      "groups":[{
          "groupValue":"Apache Software Foundation",
          "doclist":{"numFound":1,"start":0,"docs":[
              {
                "id":"SOLR1000",
                "name":"Solr, the Enterprise Search Server"}]
          }},
        {
          "groupValue":"Corsair Microsystems Inc.",
          "doclist":{"numFound":2,"start":0,"docs":[
              {
                "id":"VS1GB400C3",
                "name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail"}]
          }},
        {
          "groupValue":"A-DATA Technology Inc.",
          "doclist":{"numFound":1,"start":0,"docs":[
              {
                "id":"VDBDB1A16",
                "name":"A-DATA V-Series 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - OEM"}]
          }},
        {
          "groupValue":"Canon Inc.",
          "doclist":{"numFound":1,"start":0,"docs":[
              {
                "id":"0579B002",
                "name":"Canon PIXMA MP500 All-In-One Photo Printer"}]
          }},
        {
          "groupValue":"ASUS Computer Inc.",
          "doclist":{"numFound":1,"start":0,"docs":[
              {
                "id":"EN7800GTX/2DHTV/256M",
                "name":"ASUS Extreme N7800GTX/2DHTV (256 MB)"}]
          }}]}}

  响应表面总共有6个结果匹配.对于每个group.field的唯一值,都会返回一个doc集合,默认包含第一个最高得分文档返回.这个文档集合(docList)同样给出了分组的文档总数--numFound.这些组同样按照他们每组内的第一个文档的得分排序.

  我们也可以使用group.query命令(和facet.query命令很像)按查询分组文档.例如,我们可以找到不同价格范围的前3个文档.

...&q=memory&group=true&group.query=price:[0 TO 99.99]&group.query=price:[100 TO *]&group.limit=3

[...]
  "grouped":{
    "price:[0 TO 99.99]":{
      "matches":5,
      "doclist":{"numFound":1,"start":0,"docs":[
          {
            "name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail",
            "price":74.99}]
      }},
    "price:[100 TO *]":{
      "matches":5,
      "doclist":{"numFound":3,"start":0,"docs":[
          {
            "name":"Canon PIXMA MP500 All-In-One Photo Printer",
            "price":179.99},
          {
            "name":"CORSAIR  XMS 2GB (2 x 1GB) 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) Dual Channel Kit System Memory - Retail",
            "price":185.0},
          {
            "name":"ASUS Extreme N7800GTX/2DHTV (256 MB)",
            "price":479.95}]
      }}
[...]

  从上面的响应我们可以看出有5个结果匹配了基础查询"memory",其中,一个价格在$100以下,3个在$100以上,这加起来不够5个,这是因为有一个文档没有价格,因此,这个文档不匹配任何一个分组查询.

  通过参数group.main=true,我们可以选择性的使用分组结果作为"main"结果.尽管这个结果没有太多信息,但是它比较容易让客户端解析数据.

...&q=solr+memory&group=true&group.field=manu_exact&group.main=true

 "response":{"numFound":6,"start":0,"docs":[
      {
        "id":"SOLR1000",
        "name":"Solr, the Enterprise Search Server",
        "manu":"Apache Software Foundation"},
      {
        "id":"VS1GB400C3",
        "name":"CORSAIR ValueSelect 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - Retail",
        "manu":"Corsair Microsystems Inc."},
      {
        "id":"VDBDB1A16",
        "name":"A-DATA V-Series 1GB 184-Pin DDR SDRAM Unbuffered DDR 400 (PC 3200) System Memory - OEM",
        "manu":"A-DATA Technology Inc."},
      {
        "id":"0579B002",
        "name":"Canon PIXMA MP500 All-In-One Photo Printer",
        "manu":"Canon Inc."},
      {
        "id":"EN7800GTX/2DHTV/256M",
        "name":"ASUS Extreme N7800GTX/2DHTV (256 MB)",
        "manu":"ASUS Computer Inc."}]
  }

Request Parameters

group:           参数值true/false 打开关闭分组.

group.field :   参数值:字段名称,基于字段唯一的值来分组的.这个字段必须是单值字段,并且是必须被索引的字段.

group.func:    参数值:查询函数,这个参数支持版本4.0以上的.

group.query:    参数值:查询,这是基于查询的分组.

rows:        参数值:number,返回分组的组数.

start:       参数值:number,结果分组集合的偏移量.

group.limit:    参数值:number,每组返回的结果数.默认是1.

group.offset:  参数值:number,每组返回的起始偏移量.

sort:        参数值:[sortspec],如何对分组排序,例如,sort=popularity desc将导致分组按照每组最高人气的文档排序.默认是"score desc".

group.sort:     参数值:[sortspec],如果在组内排序文档,默认值和sort参数一样.

group.format:    参数值:grouped/simple,如果simple,分组的文档展现成一个单独的平面列表.这时候start和rows参数关联的就是文档的数量了,不再是分组的组数量.

group.main:   参数值:true/false,如果为true,最后一个字段的分组结果将被作为响应的主结果列表.使用group.format=simple.

group.ngroups:  参数值:true/false,如果为true,包含匹配查询的分组数量.默认是false.

group.truncate:  参数值:true/false,facet计数是根据匹配查询的每组最相关的文档.

group.facet:   参数值:true/false,

group.cache.percent:参数值:[0-100],如果> 0,开启分组缓存.分组事实上是执行了两次搜索,这个选项缓存了第二次搜索,值为0则关闭分组缓存.默认是0.测试发现,这个缓存只能提高boolean查询,通配符查询,模糊查询的搜索时间.举个简单的例子,对于term查询或者是全匹配查询,这个缓存就会对搜索有消极的影响.

 注意:

  1.可以在单个request请求中指定多个分组命令(如group.field, group.func, group.query)

  2.分组同样支持分布式搜索.group.truncate和group.func是唯一不支持分布式搜索的参数.

Known Limitations

  1.目前还不支持在多值字段上分组.

  2.进一步的性能改进计划很快!

不当之处,还请指正! 谢谢!

时间: 2024-10-09 15:21:23

Result Grouping / Field Collapsing-结果分组的相关文章

8.4Solr API使用(Result Grouping分组查询)

转载请出自出处:http://eksliang.iteye.com/blog/2169458 一.概述 分组统计查询不同于分组统计(Facet),facet只是简单统计记录数,并不能为每组数据返回实际的数据回来,solr提供的grouping查询能够解决这一问题,也就是说,他除了能分组外,还能把每组数据返回来. 二.语法简介 参考实例一 查询参数如下: q=*:* &group=true &group.field=price 返回结果如下: Solr Grouping参数列表 参数 参数含

Distributed Result Grouping Caveats

Grouping is supported distributed searches, with some caveats: 1)Currently group.func is not supported in any distributed searchers. 2)group.ngroups and group.facet require that all documents in each group must be co-located on the same shard in orde

solr服务器的查询过程

SolrDispatchFilter的作用 This filter looks at the incoming URL maps them to handlers defined in solrconfig.xml 将请求的url映射到solrconfig.xml定义的handler上. 该过滤器的doFilter方法主题: HttpSolrCall call = getHttpSolrCall((HttpServletRequest) request, (HttpServletResponse

solr源码分析之searchComponent

上文solr源码分析之数据导入DataImporter追溯中提到了solr的工作流程,其核心是各种handler. handler定义了各种search Component, @Override public void handleRequestBody(SolrQueryRequest req, SolrQueryResponse rsp) throws Exception { List<SearchComponent> components = getComponents(); Respo

oracle 高级分组

oracle 高级分组 博客分类: 数据库基础 oraclesql Java代码   10.高级分组 本章目标: 对于增强的group by需要掌握: 1.使用rollup(也就是roll up累计的意思)操作产生subtotal(小计)的值. 2.使用cube操作产生cross-tabulation(列联交叉表)的值. 3.使用grouping函数标识通过rollup和cube建立的行的值. 4.使用grouping sets产生一个single result set(结果集). 5.使用gr

Storm笔记整理(四):Storm核心概念与验证——并行度与流式分组

[TOC] Storm核心概念之并行度 Work 1个worker进程执行的是1个topology的子集(注:不会出现1个worker为多个topology服务).1个worker进程会启动1个或多个executor线程来执行1个topology的(spout或bolt).因此,1个运行中的topology就是由集群中多台(可能是一台)物理机上的一个或者多个worker进程组成的. Executor executor是worker进程启动的一个单独线程. 每个executor只会运行1个topo

storm 的分组策略深入理解(-)

目录 storm的分组策略 根据实例来分析分组策略 common配置: Shuffle grouping shuffle grouping的实例代码 ShuffleGrouping 样例分析 Fields grouping Fields grouping 的实例 FieldGrouping 样例分析 storm的分组策略 洗牌分组(Shuffle grouping): 随机分配元组到Bolt的某个任务上,这样保证同一个Bolt的每个任务都能够得到相同数量的元组. 字段分组(Fields grou

stream grouping

stream grouping就是用来定义一个stream应该如果分配给Bolts上面的多个Tasks.   storm里面有6种类型的stream grouping: 1. Shuffle Grouping: 随机分组, 随机派发stream里面的tuple, 保证每个bolt接收到的tuple数目相同.轮询,平均分配. 2. Fields Grouping:按字段分组, 比如按userid来分组, 具有同样userid的tuple会被分到相同的Bolts, 而不同的userid则会被分配到不

MongoDB 的分组操作 In C#

C#对mongodb的分组查询操作,主要通过脚本或Aggregate方法来实现,以下通过一些实例作解析: 参考资料:http://www.tuicool.com/articles/2iqUZj   http://www.cnblogs.com/vnii/archive/2012/08/23/2652891.html   http://www.cnblogs.com/zhwl/archive/2013/12/19/3482140.html 1. 根据任务id进行分组,统计每个任务的浏览数量. pu