论mongo-connector如何将MongoDB中的json数组和嵌套对象更新至Solr引擎

有一些东西记录下来,不久之后就会再次用到。

1. 使复杂的嵌套对象从MongoDB更新到Solr

最近使用mongo-connector将MongoDB与Solr打通,对于简单的json,更新是没问题了。这次我们遇到的问题是,如果json中某一个field的值是数组类型,或者有嵌套了一个对象,那该怎么整。比如,我们在MongoDB中插入这么个货:

{
    "_id": "555df36ec6cd08ea807a4324",
    "name": "小米手机",
    "comments": [
        {
            "text": "手机是正品",
        },
        {
            "text": "物流真他妈快",
        }
    ]
}

这东西能同步到Solr吗,我手心真是一把汗一把汗啊。经过多次尝试,非常不幸,轰轰烈烈的失败了。

无奈,去我们伟大的官方说明看一看吧,https://github.com/10gen-labs/mongo-connector/wiki/Usage%20with%20Solr ,其中有一段:Key Names and Document Flattening,尼玛前几天还没有这段说明好不,真是坑爹啊。算了,不管怎样,看起来这东西针对上面那种json还是有办法的,按照说明,上面那段json应该转换成以下形式:

{
    "_id": "555df36ec6cd08ea807a4324",
    "name": "小米手机",
    "comments.0.text":"手机是正品",
    "comments.1.text":"物流真他妈快"
}

然后提交给Solr。并且,我们从官方文档中看不出来任何需要配置的地方,难道,默认安装好,这些东西就能行?Oh,No~~~~

这是为什么呢,我们看看官方对schema.xml的说明,原来关键点在这,大概意思就是mongo-connector会读取这个配置文件,在将数据提交给Solr之前,会将数据中没有在schema.xml中声明的field去掉。

哦,原来如此,应该是形如"comments.0.text"这样的field没有被schemal.xml声明,所以被去掉了,在Solr中见不到。那么我们对症下药,既然没有声明这个域,我们声明不就好了,在schema.xml中加入:

<field name="comments.0.text" type="text_mmseg4j_complex" indexed="true" stored="true"/>

schema.xml的路径参考上一篇文章。重启Solr,保持mongo-connector开启,重新往MongoDB中插入上面那段json,哇,ok,我们可以在Solr前端看到"comments.0.text"了,伟大的革命征程终于迈出了第一步!

成功之后,你可能还想显示"comments.1.text",如法炮制。那么,问题来了,如果我数组中有多个对象,无限多,难道我要把所有的可能field都声明一遍?

这个问题问的真是极好的!我们不得不说schema.xml是个非常重要的东西!

这个时候,我们要用到在schemal.xml中的另外一种东西,dynamicField。这东西看起来可以通配多个名称,按照已有的示例。那么,按照我们的需求,我们这样添加:

<dynamicField name="comments*" type="text_mmseg4j_complex" indexed="true" stored="true"/>

这个意思很明显了,就是声明了所有通配comments*的域,这样我们就可以把所有的comments*一网打尽了。

如果想进一步探究mongo-connector怎样做到上面这些的,可以参考python文件:

/usr/local/lib/python2.7/dist-packages/mongo_connector/doc_managers/solr_doc_manager.py

到这,我们就完成了更新这一伟大使命。

2. 在Solr中对嵌套对象及数组进行Query

按照1中所述,我们目前可以在Solr前端看到更新的字段,并且,这些字段已经被Solr建立索引,那么我们该如何查询他们呢,比如我们想用关键字“正品”在所有的形如"comments.*.text"的字段中命中到“手机是正品”这个值。令人遗憾的是,Solr提供给我们值的各种查询手段,却不给我们指定目标field的各种手段,我们只是形如"comments.*.text",但事实上,我们并不能在Solr中这样指定要搜索的域。

这时,不得不再次说一句,schema.xml真特么太重要了,我们用到了里面又一个东西copyField。这个东西可以看看schema.xml中的注释,大概意思就是建立索引时source的值可以加入到dest,反过来查询dest也就同时能对source进行查询,关键是多个source可以copy到一个dest啊,这不就正合我意嘛。说了这么多,只需要我们在schema.xml中加入一句:

<copyField source="comments*" dest="text"/>

这个dest的field "text"一定要设置成multiValue="true"哦,不然mongo-connector会报错的,想来应该也是吧,这么多source到一个dest,别问我是怎么知道的,这个确实是我试出来的,中间过程就不多说了。

按照上面所说,这个时候我们对text域进行查找,就会去coments*域查找,设置Solr的df为text,q为关键字,猛击吧,骚年,你会得到想要的东西。

好了,码了这么多,关键点就是这么多了,坑太多,小心小心呐~~

时间: 2024-10-09 06:39:26

论mongo-connector如何将MongoDB中的json数组和嵌套对象更新至Solr引擎的相关文章

php中 xml json 数组 之间相互转换

php中 xml json  数组 之间相互转换 1 数组转json $result = array( 'status' =>$status, 'message'=>$message, 'data'=>$data, ); json_encode($result);

Js 中对 Json 数组的常用操作

我们首先定义一个json数组对象如下: var persons = [ {name: "tina", age: 14}, {name: "timo", age: 15}, {name: "lily", age: 16}, {name: "lucy", age: 16} ] 一. 根据对象属性值得到相应对象 //1. 获取 name 等于 lily 的对象 var lily = persons.filter((p) =>

C#中,JSON字符串转换成对象。

在前台提交(post)的数据中.除了强类型的数据外,还有一个额外的json数据提交 在这里我的办法是,在前台把json对象转换成字符串,然后提交. 测试demo 前台: @using(Html.BeginForm()) { <input type="text" id="json" name="json"/> <input type="submit" value="提交"/> } &l

fastJson中常用JSON字符串和Java对象互转

1.使用fastJson,首先引入fastJson依赖 <!-- https://mvnrepository.com/artifact/com.alibaba/fastjson --> <dependency> <groupId>com.alibaba</groupId> <artifactId>fastjson</artifactId> <version>1.2.54</version> </depen

转:使用Mongo Connector和Elasticsearch实现模糊匹配

原文来自于:http://www.csdn.net/article/2014-09-01/2821485-how-to-perform-fuzzy-matching-with-mongo-connector 摘要:短短两年,Mongo Connector取得了突破性的进展,用户已经可以通过它完成连接器两边的同步更新.而基于这个特性,其他工具针对MongoDB内存储文件的实时操作也成为可能. [编者按]本篇博文作者Luke Lovett是MongoDB公司的Java工程师,他展示了Mongo Co

MongoDB中索引的创建和使用详解

索引通常能够极大的提高查询的效率.在系统中使用查询时,应该考虑建立相关的索引.在MongoDB中创建索引相对比较容易. mongodb中的索引在概念上和大多数关系型数据库如MySQL是一样的.当你在某种情况下需要在MySQL中建立索引,这样的情景同样适合于MongoDB. 基本操作 索引是一种数据结构,他搜集一个集合中文档特定字段的值.MongoDB的查询优化器能够使用这种数据结构来快速的对集合(collection)中的文档(collection)进行寻找和排序.准确来说,这些索引是通过B-T

安卓中解析json数据

一.概述 JSON是JavaScript Object Notation的简称,起源于js(javascript)它是一种轻量级的数据交换格式,JSON不仅在js中广泛使用,同时还在其他领域得到广泛使用,如c,c++,java,Php,swift等等,成为了一种通用的理想数据交换格式,它有两种数据结构,分别是对象,数组,它形式上有花括号{}和中括号[]嵌套,{}中的是代表对象,[]中的为数组,即对象中有数组,数组中又有对象,而且以及键/值对出现. json语法: 数据在键值对中 数据有逗号分离

jquery 中json数组的操作 增删改

链接地址:http://blog.sina.com.cn/s/blog_86be5e2f0101bc3k.html 在jquery中处理JSON数组的情况中遍历用到的比较多,但是用添加移除这些好像不是太多. 今天试过json[i].remove(),json.remove(i)之后都不行,看网页的DOM对象中好像JSON数据是以数组的形式出现的,查阅了下相关JS中数组的操作一试果然很爽. 记录下来. 1.数组的创建 var arrayObj = new Array(); //创建一个数组 var

使用aggregate在MongoDB中查找重复的数据记录

我们知道,MongoDB属于文档型数据库,其存储的文档类型都是JSON对象.正是由于这一特性,我们在Node.js中会经常使用MongoDB进行数据的存取.但由于Node.js是异步执行的,这就导致我们无法保证每一次的数据库save操作都是原子型的.也就是说,如果客户端连续两次发起同一事件将数据存入数据库,很可能会导致数据被重复保存.高并发的情况下,哪怕是你在代码中已经做了非常严格的校验,例如插入数据前判断要保存的数据是否已经存在,但仍然有可能会出现数据被重复保存的风险.因为在异步执行中,你没有