转:使用Mongo Connector和Elasticsearch实现模糊匹配

原文来自于:http://www.csdn.net/article/2014-09-01/2821485-how-to-perform-fuzzy-matching-with-mongo-connector

摘要:短短两年,Mongo Connector取得了突破性的进展,用户已经可以通过它完成连接器两边的同步更新。而基于这个特性,其他工具针对MongoDB内存储文件的实时操作也成为可能。

【编者按】本篇博文作者Luke Lovett是MongoDB公司的Java工程师,他展示了Mongo Connector经过2年发展后的蜕变——完成连接器两端的同步更新。期间,Luke还展示如何通过Elasticsearch实现模糊匹配。

以下为译文:

介绍

假设你正在运行MongoDB。太好了,现在已经可以为基于数据库的所有查询进行精确匹配了。现在,设想你正要在你的应用中建立一个文本搜索功能,它必须去除拼写错误这个噪音,最终可能会得到一个相近的结果。为此,这个令人生畏的任务,你需要在Lucene、Elasticsearch和Solr里选择一个。但是现在你面临这样一个问题——这些搜索工具将如何查询存储于MongoDB中的文档?以及你如何保持搜索引擎内容是最新的?

Mongo Connector填补了MongoDB和一些最好搜索工具(例如:Elasticsearch和Solr)之间的空白。这不仅是可以支撑从MongoDB副本集或这些系统分片集群中导出数据,而且可以保持这些系统之间的一致性:如果你在MongoDB中插入、更新和删除文件,那么这些改变会很快的通过Mongo Connector在另一端体现。你甚至可以使用Mongo Connector将操作以流的方式传送给其他关联副本集,从而模拟出一个“multi-master”集群。

Mongo Connector在2012年8月发布时,那个时候它的功能简单并缺少容错性。我从2013年11月开始使用Mongo连接器,期间得到了MongoDB Python团队的帮助,我非常兴奋地说它的功能和稳定性已经取得了很大进步。这篇文章将介绍这些新功能,以及如何使用Mongo Connector将MongoDB操作同步到Elasticsearch(一个开源的搜索引擎)中。在这篇文章的结尾,我们还展示如何对流入Elasticsearch中的数据实现文本查询的模糊匹配。

获取数据集

这篇文章,我们会来到一个流行的链接聚合网站Reddit。我们最近添加了一个由MongoDB提供支持的数据类型安全码,可以很好地处理外部数据库驱动器。这使得那些并没有得到充分控制的副本文档得以保证其安全性。使用下面这个脚本来传输Reddit新发布的post,使用流的方式将新生成的Reddit post传输到MongoDB中。

./reddit2mongo --mongo-host localhost --mongo-port 27017

由于post是经过处理的,你应该能看到标题的前20个字。这个过程会模仿你开发应用时的操作,将数据写入MongoDB。

启动Mongo Connector

下一步,我们将启动Mongo Connector。为了下载和安装Mongo Connector,你可以使用pip:

pip install mongo-connector

为了示例的正常进行,我们假设你已经安装好了Elasticsearch,且运行于端口为9200的本地机器。你可以使用下面的命令从 MongoDB 复制到Elasticsearch。

mongo-connector -m localhost:27017 -t localhost:9200 -d mongo_connector/doc_managers/elastic_doc_manager.py

当然,如果只想在post标题和内容中进行文本搜索,我们可以使用Elasticsearch的字段选项来限制字段。通过这个方法,我们能最小化所复制的数据量:

mongo-connector -m localhost:27017 -t localhost:9200 --fields title,text -d mongo_connector/doc_managers/elastic_doc_manager.py

就像你看到reddit2mongo将Reddit post以STDOUT输出,你同样可以看到从Mongo Connector输出的日志——所有文档都在同时发送给了ES。

弹性的搜索

现在,我们准备使用Elasticsearch在我们的数据集上实现模糊匹配查询,因为它来自于MongoDB。由于我们直接从Reddit的网站输出内容,因此根本无法预测从数据集中获得的结果。以“kitten”的搜索为例,以下为实现代码:

curl -XPOST ‘http://localhost:9200/reddit.posts/_search’ -d’{
  "query": {
    "match": {
      "title": {
        "query": "kitten",
        "fuzziness": 2,
        "prefix_length": 1
      }
    }
  }
}’

由于我们正在进行一个模糊搜索,我们甚至可以搜索一个并不存在的词,例如kiten。由于大多数人根本不注重他们的拼写,它可以直接实现搜索用户随意输入的文本,至此,你可以想象这个功能是多么地强大。以下为实现代码:

curl -XPOST ‘http://localhost:9200/reddit.posts/_search’ -d’{
  "query": {
    "match": {
      "title": {
        "query": "kiten",
        "fuzziness": 2,
        "prefix_length": 1
      }
    }
  }
}’

模糊参数决定了下一次查询字段匹配的最大“edit distance”, prefix_length参数则需求结果必须匹配查询的第一个字母。这篇 文章详细说明了这个功能的实现途径,输出了和正确拼写同样的结果。

不仅是插入

尽管我们只演示了如何利用从 MongoDB 到Elasticsearch的连续文件流,但是Mongo Connector不仅仅是一个输入/输出工具。当你更新或删除MongoDB中的文件时,那些操作也会被记录在其他的系统中,保持与当下的主节点同步。如果主节点在做故障转移并产生一个回滚,Mongo Connector能删除操作并采取正确的做法来维持一致性。

总结

这个事情的真正意义在于我们在MongoDB和Elasticsearch里可以同时操作。若没有一个类似Mongo Connector的工具,我们不得不使用一个类似mongoexport工具去定期地从MongoDB转储数据至JSON,然后再上传这些数据至一个闲置的Elasticsearch中,导致我们空闲时无法提前删除文件。这大概是一件很麻烦的事,同时失去了Elasticsearch的近实时查询能力。

尽管Mongo Connector自第一次发布后有了长足的改进,但它仍然是一个实验性的产品,且没有MongoDB的官方支持。然而,我会一直致力于回答各方问题、总结功能请求,并在GithubMongo Connector页面上提交Bug报告,也会检查Github百科页关于Mongo Connector的所有文档。

原文链接: How to Perform Fuzzy-Matching with Mongo Connector and ElasticSearch(翻译/红叶   责编/仲浩)

时间: 2024-09-27 15:17:16

转:使用Mongo Connector和Elasticsearch实现模糊匹配的相关文章

java使用elasticsearch进行模糊查询

使用环境上篇文章本人已书写过,需要maven坐标,ES连接工具类的请看上一篇文章,以下是内容是笔者在真实项目中运用总结而产生,并写的是主要方法和思路,具体实现大家可以看后面文章,若其中有不适,请大家多多包涵 一.ES模糊查询 (一)不含中文模糊查询,适用于数字 SearchResponse searchResponse=null; //连接elasticsearch TransportClient transportClient = ESClientConnectionUtil.getESCli

java使用elasticsearch进行模糊查询之must使用

java使用elasticsearch进行多个条件模糊查询 文章说明: 1.本篇文章,本人会从java连接elasticsearch到查询结果生成并映射到具体实体类(涵盖分页功能) 2.代码背景:elasticsearch版本为:5.2.0; 3.本人以下代码是分别从两个索引中查询数据,再将两个数据进行整合,如果大家只需要分组查询,那么则选取文章中的分组查询部分代码 4.本人的实体类主要是按照layUI分页框架进行设计:实体大家可以根据自己的具体需求进行设计 一.java连接elasticsea

利用SQL模糊匹配来验证字段是否是日期格式

最近需要验证数据仓库某个字段是否转化成某种日期格式,比如时间戳格式 '2016-05-03 23:21:35.0', 但是DB2不支持REGEXP_LIKE(匹配)函数,所以需要重新想其他办法. 最后使用了最常规的like来模糊匹配,虽然比不上正则匹配那么精准,但也够用了. 思路: 一个下划线代表一个字符,那'2016-05-03 23:21:35.0'可以表示成'____-__-__-__.__.__.______'. 当然这种办法比较笨,不能识别是数字还是字母还是字符,当然更好的办法是编写U

关键字模糊匹配

关键词模糊匹配,如候选词集合为{‘我爱北京天安门’,‘北京西站’,‘上海外滩’},输入‘北京’,要匹配出{‘我爱北京天安门’,‘北京西站’} 想到了如下几种方法: 1. 正则法 将所有关键词集合存入数组或字典中,然后用关键字进行正则匹配. 效率略慢,400万候选词的话,约用时4s 2.reids法 有两种子方法 keys命令模糊匹配 keys *北京* 官方不推荐这种做法 sscan命令模糊匹配 SSCAN myset 0 MATCH *北京* COUNT 4000000 400万候选词的话,约

Excel 中使用SQL 语句查询数据(七)-----用LIKE 运算符进行模糊匹配查询

这篇博文要和大家分享的是用LIKE 运算符进行模糊匹配查询下图数据源商品代号包含数字的数据. 我们用Microsoft query连接数据源,步骤请参考本系列第一篇博文.语句如下图 其中 LIKE '%[0-9]%' 执行结果如下 然后将结果导入excel  的sheet中

js模糊匹配

<div> <input type="text" placeholder="请输入..." id="input"/><button>搜索</button> <ul id="inputInfo"></ul> </div> let search = [] let list = '' var inputArr = [] document.getEle

selenium模糊匹配控件

起因:在查找一些控件时,可能控件的一些属性是变化的,那在匹配时需要进行模糊匹配,模糊匹配,使用xpath 定位方式有种: contains(属性名,字符串):使用文本匹配,功能很强大 starts-with(属性名,字符串):根据开头进行模糊匹配 ends-with(属性名,字符串):根据结尾内容进行匹配 matchs(属性名,字符串):根据正则进行匹配 案例: 如图,点击底部的一个收藏,弹出OK按钮,需要点击这个Ok,就能正常执行下一步 <span type="1">OK

selenium2 python 学习笔记--xpath模糊匹配

xpath模糊匹配,类似find_by_partial_link,如下图: contains(属性名,字符串),starts-with(属性名,字符串),ends-with(属性名,字符串),matchs(属性名,字符串)

mybatis模糊匹配和正则

模糊匹配 <select id="findByName" parameterType="string" resultType="Student">        select * from student where student.name like "%"#{name}"%";   <select> 正则 <select id="findByName"