排序与相关性(Sorting and Relevance)

本文翻译自Elasticsearch官方指南的Sorting and Relevance一章的第一节。

原文地址:http://www.elastic.co/guide/en/elasticsearch/guide/current/_sorting.html

排序

ES默认是通过相关度来对结果进行排序的,最相关的文档在最前面。在本章里,我们阐述我们所说的相关性以及它是如何计算的,但是我们先讲解sort参数及其如何使用。

为了根据相关性进行排序,我们需要把相关性表示为一个值。在Elasticsearch里,在返回的查询结果中,我们用一个浮点数值_score来表示相关性得分,因此默认的排序是按_score降序。

有时候,不能得到一个有意义的相关性得分。比如,下面的查询只返回了字段user_id值为1的所有的tweets:

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : {
                "term" : {
                    "user_id" : 1
                }
            }
        }
    }
}
过滤器与_score无关,并且不含任何条件的match_all查询对所有的文档的_score都设置为1。换句话说,所有的文档被认为是相等的相关性。

按字段值排序

在这种情况下,可能按tweets的时间排序是有意义的,最近的tweets在最前面。我们可以使用sort参数做到这一点:

GET /_search
{
    "query" : {
        "filtered" : {
            "filter" : { "term" : { "user_id" : 1 }}
        }
    },
    "sort": { "date": { "order": "desc" }}
}
在结果中,注意到两点:
"hits" : {
    "total" :           6,
    "max_score" :       null, 

    "hits" : [ {
        "_index" :      "us",
        "_type" :       "tweet",
        "_id" :         "14",
        "_score" :      null, 

        "_source" :     {
             "date":    "2014-09-24",
             ...
        },
        "sort" :        [ 1411516800000 ] 

    },
    ...
}

_score没有被计算出来的,因为在排序中不被使用。

date字段的值,被表示为从时间纪元开始的毫秒数,在sort值里返回。

第一,每一个结果中都多了一个新的元素:sort,它包含我们用作排序的那个字段值。在这个例子中,我们按date排序,date是按着从纪元时间的毫秒数加入索引。这段长数字1411516800000与日期字符串2014-09-24 00:00:00UTC是等价的。

第二,字段_score与max_score都是null.计算_score很花费时间,况且通常它唯一的目的就是为了排序。我们不是按照相关性排序,所以跟踪_score是没有意义的。如果你仍然还想计算_score,你可以将track_scores参数设置为true.

TIP: 作为一个快捷方式,你可以指定要排序的字段名字:

    "sort": "number_of_children"
字段名默认按升序排序,_score默认按降序排序。

多级排序

我们也许要结合_score与date进行查询,在展示所有匹配结果的时候,首先按照date排序,然后按相关度_score排序。

GET /_search
{
    "query" : {
        "filtered" : {
            "query":   { "match": { "tweet": "manage text search" }},
            "filter" : { "term" : { "user_id" : 2 }}
        }
    },
    "sort": [
        { "date":   { "order": "desc" }},
        { "_score": { "order": "desc" }}
    ]
}
顺序是很重要的。结果首先按第一个标准排序。只有当结果的第一个sort 值相同时,然后再按第二个标准排序,等等。
多级排序不是必须含有_score字段。在脚本里,你可以使用几个不同的fields,geo-distance或者自定义值排序。

NOTE:Query-string 查询也支持在查询字符串里使用sort参数自定义排序:

GET /_search?sort=date:desc&sort=_score&q=search

多值字段排序

当排序字段有不止一个值时,请记住,这些值没有任何内部顺序;一个多值字段只是一袋值(译者注:所有值可以看做一个整体)。你选择哪个进行排序呢?
对于数字与日期类型,你可以通过min,max,avg或者sum等排序模式,将一个多值字段减少为一个值。例如,你可以通过如下方式,在date字段值集合中的最早的那个日期进行排序:
"sort": {
    "dates": {
        "order": "asc",
        "mode":  "min"
    }
}
时间: 2024-08-29 01:19:18

排序与相关性(Sorting and Relevance)的相关文章

字符串排序和多字段排序(string sorting and multi-fields)

被分词的string字段也是一个multi-value字段,但是对他们进行排序往往得不到想要的结果.如果你对"fine old art"进行分词,他将会返回三个term.我们也许对以一个term进行字母排序,然后第二个等.但是ES没有在这个期间的时间顺序. 你可以使用min和max排序模式(默认使用min),但是结果既不是art或者old也不是任何想要的结果. 为了对string field进行排序,这个field就只能是一个term:也就是一个not_analyzed类型的strin

拓扑排序(Topological Sorting)

一.什么是拓扑排序 在图论中,拓扑排序(Topological Sorting)是一个有向无环图(DAG, Directed Acyclic Graph)的所有顶点的线性序列.且该序列必须满足下面两个条件: 每个顶点出现且只出现一次. 若存在一条从顶点 A 到顶点 B 的路径,那么在序列中顶点 A 出现在顶点 B 的前面. 有向无环图(DAG)才有拓扑排序,非DAG图没有拓扑排序一说. 例如,下面这个图: 它是一个 DAG 图,那么如何写出它的拓扑排序呢?这里说一种比较常用的方法: 从 DAG

拓扑排序 POJ 1049 Sorting It All Out

题目传送门 1 /* 2 拓扑排序裸题:有三种情况: 3 1. 输入时发现与之前的矛盾,Inconsistency 4 2. 拓扑排序后,没有n个点(先判断cnt,即使一些点没有边连通,也应该是n,此时错误是有环): 5 flag = -1 表示不确定:return 2 表示拓扑序唯一 6 3. 其他情况都是 Sorted sequence cannot be determined. 7 8 */ 9 #include <cstdio> 10 #include <algorithm>

各种排序归纳总结

根据<数据结构与算法分析——Java语言描述>一书和各技术博客知识点来总结的. 冒泡排序(Bubble sort) 插入排序(insertion sort) 希尔排序(Shellsort) 堆排序(heapsort) 归并排序(mergesort) 快速排序(quicksort) 桶式排序(bucketsort) 外部排序(external sorting) 正在编辑中... 新人学习总结,大神请勿喷

简单排序方法

排序: 排序(Sort)是计算机程序设计中的一种重要操作,也是日常生活中经常遇到的问题.例如,字典中的单词是以字母的顺序排列,否则,使用起来非常困难.同样,存储在计算机中的数据的次序,对于处理这些数据的算法的速度和简便性而言,也具有非常深远的意义. 基本概念: 排序是把一个记录(在排序中把数据元素称为记录)集合或序列重新排列成按记录的某个数据项值递增(或递减)的序列. 下表是一个学生成绩表,其中某个学生记录包括学号.姓名及计算机文化基础.C 语言.数据结构等课程的成绩和总成绩等数据项.在排序时,

排序--Python

使用Python对数据排序时,有两种选择. 原地排序(In-place sorting)是指按你制定的顺序排列数据,然后用排序后的数据替换原来的数据. 原来的顺序会丢失.对于列表,sort()方法会提供原地排序: >>>data = [6, 3, 1, 2, 4, 5] >>>data [6, 3, 1, 2, 4, 5] 使用sort()方法完成原地排序,每个Python列表都有的一个标准方法: >>>data.sort() >>>

【Unity3D自学记录】可视化对照十多种排序算法(C#版)

在这篇文章中.我会向大家展示一些排序算法的可视化过程.我还写了一个工具.大家可对照查看某两种排序算法. 下载源代码 – 75.7 KB 下载演示样例 – 27.1 KB 引言 首先,我觉得是最重要的是要理解什么是"排序算法".依据维基百科.排序算法(Sorting algorithm)是一种能将一串数据按照特定排序方式进行排列的一种算法. 最经常使用到的排序方式是数值顺序以及字典顺序.有效的排序算法在一些算法(比如搜索算法与合并算法)中是重要的,如此这些算法才干得到正确解答.排序算法也

数据结构——排序算法总结

排序(Sorting)就是将一组对象依照规定的次序又一次排列的过程,排序往往是为检索而服务的.它是数据处理中一种非常重要也非经常常使用的运算.比如我们日常学习中的查字典或者书籍的文件夹.这些都事先为我们排好序,因此大大减少了我们的检索时间,提高工作效率. 排序可分为两大类: 内部排序(Internal Sorting):待排序的记录所有存放在计算机内存中进行的排序过程: 外部排序(External Sorting):待排序的记录数量非常大,内存不能存储所有记录.须要对外存进行訪问的排序过程. 外

搜索引擎的排序技术

摘  要:     本文简要介绍和比较了目前搜索引擎所使用的排序算法,主要包括词频位置加权排序算法,链接分析排序算法,并着重介绍了PageRank算法和HITS算法的思想以及二者比较的优缺点. 关键词:     搜索引擎;排序; PageRank; HITS 1     前言 Google和Baidu的崛起,很大程度上是由于他们使用了较以往搜索引擎更加优秀的排序技术.由于通常人们只会关注搜索结果的前10项或20项,所以将与用户查询的结果最相关的信息排列在结果的前排是尤为重要的.比如说以.jp,