solr4.x之原子更新

solr4.x发布以后,最值得人关注的一个功能,就是原子更新功能,传说的solr是否能真正的做到像数据库一样,支持单列更新呢? 在solr官方的介绍中,原子更新是filed级别的更新,不会涉及整个Documnet级别的更新,但事实真是如此吗,经散仙验证,并非如此,原子更新这种功能,在Lucene层面上,就否定了这种方式,因为是索引存储结构,决定了它的更新方式,在Lucene中我们想更新一条数据怎么办?

很简单,删除原来的数据,在添加一条数据进去,那么假如,我们只更新了某一个字段呢,也要删除整条数据,重新添加?
没错,事实就是这样,严格来说,在Lucene索引中,并不存在更新删除一说,即使是删除,也是伪删除,临时打一个删除标签,在下次索引合并时,会清理掉标记的标签,Lucene的索引存储结构与HDFS的的结构从某种程度上来说,是相似的,仅仅支持Append操作。

那么如何验证原子更新,到底是不是真的是原子更新呢,这个很好办,我们只需要关注更新后的doc的docid有没有变化,即可验证,为什么这样讲?

在lucene里每个doc都有一个唯一的docid,默认情况下docid,是自增的,每增加一行数据,docid就会新增一个,删除后的docid,在下次merge的时候,会重置倒排表docid顺序,这个docid与Oracle的rownum伪列是非常类似的。

不过话说回来,虽然原子更新功能只是一个华而不实的功能,但是solr对其进行了封装,这样以来使得我们操作solr更加容易和方便,下面介绍下在solr中原子更新的内容,和使用方式。

原子更新注意事项:

1,想支持原子更新的field,必须存储(store=true),否则,使用将会出现问题

2,需要在solrconf.xml配置<updateLog/>,这一点默认就已经不配置了,也就是说我们只需要记住原子更新的域需要存储即可。

原子更新支持的操作:

1,set操作,是指对单,多值域的一种更新(覆盖操作)

2,add操作,仅多多值域生效,给多值域添加一个内容

3,inc操作,对数值域进行一次自增操作,举个例子,原来的值是,10,这次

你inc=3,那么更新后的值就是13

在本文,散仙只介绍,以solrj的操作方式,如果想详细了解更多其他方式,比如json或xml的方式,请点击此处

具体的核心代码如下:

Java代码  

    1. /**
    2. * 原子更新方式
    3. * */
    4. public static void atomUpdate1Store()throws Exception{
    5. SolrInputDocument sd = new SolrInputDocument();
    6. sd.addField("id", "1");//根据id唯一标识
    7. HashMap<String,String> map=new HashMap<String, String>();
    8. map.put("add", "国际1");//放入支持的操作,对多值域管用
    9. //map.put("set", "国际1");//放入支持的操作,对单值和多值域管用
    10. //map.put("inc", "国际1");//放入支持的操作,对数值域管用
    11. sd.addField("dname", map);
    12. server.add(sd);
    13. server.commit();
    14. System.out.println("原子更新成功!");
    15. }

原文地址:https://www.cnblogs.com/cuihongyu3503319/p/9452946.html

时间: 2024-10-15 04:46:12

solr4.x之原子更新的相关文章

solr原子更新

最近在配合研发做ubd的项目,简单的说就是一张大宽表,有200个字段,而且数据量特别巨大(1亿级别的数据量),传统的数据库是不适合的,因此考虑基于lucene的solr,并且推荐使用solr cloud的功能来做高可用和sharding(后面会更新对solr和lucene的代码学习). 数据从hive计算插入到solr中,根据github上的代码自己做了修改,实现了hive2solr的功能.其实数据的最终插入还是调用了SolrInputDocument类的对应方法. 默认情况下对solr 添加和

solr/solrj之原子更新

lucene本身对原子更新没有太多的介绍,但solr对其进行了封装,这里简单做个介绍:这点操作还是对索引很实用的. 具体在代码中使用如下: /** * 原子更新方式 * */ public static void updateSolrField()throws Exception{ SolrInputDocument doc = new SolrInputDocument(); doc .addField("id", "10");//根据id唯一标识 Map<

Solr搜索引擎【索引提交、事务日志、原子更新】

一.索引提交 当一个文档被添加到Solr中,但没有提交给索引之前,这个文档是无法被搜索的.换句话说,从查询的角度看,文档直到提交之后才是可见的.Solr有两种类型的提交:软提交和正常提交[也称硬提交]. 1.正常提交 Solr正常提交是将所有未提交的文档写入磁盘,并刷新一个内部搜索器组件,让新提交的文档能够被搜索.搜索器实际上可以看作索引中所有已提交文档的只读视图.可以这样说,硬提交是花销很大的操作,由于硬提交需要开启一个新搜索器,所以会影响到查询性能. 当正常提交成功后,新提交的文档被安全保存

【记录】【solr】solr7.2.1原子更新

就是说只更新指定的字段,没有的字段则添加,有的字段则替换,没有指定更新的字段不会被删除 原来的数据只有id和name这两个字段 java操作,更新一个字段,id用于指定数据 结果,name字段没有被删除掉 再操作 只改变password字段 主要就是 SolrInputDocument solrInputDocument = new SolrInputDocument(); Map<String, Object> map = new HashMap<>(); map.put(&qu

ENode框架Conference案例分析系列之 - 复杂情况的读库更新设计

问题背景 Conference案例,是一个关于在线创建会议(类似QCon这种全球开发者大会).在线管理会议位置信息.在线预订某个会议的位置的,这样一个系统.具体可以看微软的这个项目的主页:http://cqrsjourney.github.io. 然后我们设计了一个Conference聚合根,对应领域中的会议这个领域概念.Conference聚合根下面,有一些位置信息SeatType.一个会议聚合根下面可以添加不同类型的位置,每种类型的位置可以指定数量以及价格.所以,Conference是聚合根

ENode 2.6 - 关于聚合根一次产生多个领域事件时更新读库的方案设计

最近在用ENode开发conference案例时,遇到一个问题,写篇文章分享一下. 问题背景 Conference案例,是一个关于在线创建会议(类似QCon这种全球开发者大会).在线管理会议位置信息.在线预订某个会议的位置的,这样一个系统.具体可以看微软的这个项目的主页:http://cqrsjourney.github.io. 然后我们设计了一个Conference聚合根,对应领域中的会议这个领域概念.Conference聚合根下面,有一些位置信息SeatType.一个会议聚合根下面可以添加不

《Java并发编程实战》第十五章 原子变量与非阻塞同步机制 读书笔记

一.锁的劣势 锁定后如果未释放,再次请求锁时会造成阻塞,多线程调度通常遇到阻塞会进行上下文切换,造成更多的开销. 在挂起与恢复线程等过程中存在着很大的开销,并且通常存在着较长时间的中断. 锁可能导致优先级反转,即使较高优先级的线程可以抢先执行,但仍然需要等待锁被释放,从而导致它的优先级会降至低优先级线程的级别. 二.硬件对并发的支持 处理器填写了一些特殊指令,例如:比较并交换.关联加载/条件存储. 1 比较并交换 CAS的含义是:"我认为V的值应该为A,如果是,那么将V的值更新为B,否则不需要修

Java并发——原子变量和原子操作与阻塞算法

十五年前,多处理器系统是高度专用系统,要花费数十万美元(大多数具有两个到四个处理器).现在,多处理器系统很便宜,而且数量很多,几乎每个主要微处理器都内置了多处理支持,其中许多系统支持数十个或数百个处理器. 要使用多处理器系统的功能,通常需要使用多线程构造应用程序.但是正如任何编写并发应用程序的人可以告诉你的那样,要获得好的硬件利用率,只是简单地在多个线程中分割工作是不够的,还必须确保线程确实大部分时间都在工作,而不是在等待更多的工作,或等待锁定共享数据结构. 问题:线程之间的协调 如果线程之间 

java并发编程(8)原子变量和非阻塞的同步机制

原子变量和非阻塞的同步机制 一.锁的劣势 1.在多线程下:锁的挂起和恢复等过程存在着很大的开销(及时现代的jvm会判断何时使用挂起,何时自旋等待) 2.volatile:轻量级别的同步机制,但是不能用于构建原子复合操作 因此:需要有一种方式,在管理线程之间的竞争时有一种粒度更细的方式,类似与volatile的机制,同时还要支持原子更新操作 二.CAS 独占锁是一种悲观的技术--它假设最坏的情况,所以每个线程是独占的 而CAS比较并交换:compareAndSwap/Set(A,B):我们认为内存