Lucene.Net 2.3.1开发介绍 —— 三、索引（七）

5、IndexWriter

索引这部分最后讲的是IndexWriter。如果说前面提到的都是数据的结构，那么IndexWriter就是业务的封装。无论述Document，Field还是看不见的Segment,Term都是对数据存储逻辑的抽象，IndexWriter包装了操作的过程。

当然，这里不会讨论IndexWriter的每个细节，这里主要介绍IndexWriter的常用法和实际使用中遇到的部署问题。

5.1 IndexWriter的常用方法

IndexWriter的用法很简单，前文有例子。在《接触Lucene.Net 》一文中代码2.1.1就是最简单的用法。可以看到IndexWriter的构造函数很重要，AddDocument方法也很重要，有这两个方法，就可以建立索引了。其它的方法都是对建立索引的过程或者结果进行了优化，或者是提供了一些索引中或者索引后的数据。比如，常用的Optimize方法，就是对索引进行优化，使得搜索能够效率更高。还有一些常用的方法（按字母排序）：

（1）、AddIndexes方法是合并不同部分索引的，这个方法很有用，比如，用5个线程在5个目录下建立索引，然后用这个方法把5个索引合并为一个，这样就能提高索引的效率；
（2）、Close方法是最后使用的方法，除了能够去除对文件的锁定外，还能起到Flush方法的作用。这个方法非常重要，在IndexWriter实例建立后，无论出现什么样的问题，哪怕程序崩溃，都一定要显式调用该方法。要不然索引会处于锁定状态，无法解除；
（3）、DeleteDocuments是用来删除索引的，这里只能指定Term删除，使用价值不是太高；

（4）、Flush方法是把缓冲数据写入的一个方法，在不想关闭索引但是要清空缓冲区的时候使用；

（5）、Optimize方法是优化索引的方法，如果索引数据很大，则调用这个方法会耗费很长时间。另外就是，如果索引文件这个时候被读取，并不能达到删除废弃文件的目的。

（6）、SetMaxBufferedDocs方法是规定缓冲区能够缓冲Document的个数，因为写硬盘要比写内存慢很多，这个值设置得越大，暂时存储到内存的Document就会越多；

（7）、SetMaxFieldLength方法设置Field的最大长度；

（8）、UpdateDocument用来更新索引，但是实际上并不是真正的更新，而是先删除，再添加，如果不进行优化，那么至少会增加两个文件，一个记录了增加的一个记录了删除的。

5.2 索引的部署

索引的部署根据索引的大小而趋向复杂，我认为至少是平方增长。复杂度增长的原因在于，索引大小的增长，将会引入更多需要考虑的因素。比如，索引的重建，索引优化时间，多索引部署等，而分布式部署基本上是目前最复杂的部署方案。

一般来说，应该一个索引存储，只应该由一个IndexWriter来控制。一个存储不应该超过2G，即使是2G，每次索引更新都需要10分钟左右来优化索引。至于如何分配索引，要根据实际情况来决定，而且要考虑诸如程序崩溃等情况。

在Java版的搜索引擎解决方案中有很多可以借鉴的地方，比如，对于数据索引，Compass的索引方式可以参考；对于抓取式的搜索引擎，Nutch可以参考；分布式解决方案可以参考Hadoop。如何实现像Compass一样，添加、删除、更新都能及时反映到索引当中，站内搜索引擎一般都会面临这样的问题。Lucene.Net已经为我们提供了实现的方法，至于实现的逻辑需要你去思考。

6、索引小节

本篇文章是索引部分的完结篇。从第一篇到这里第七篇，主要介绍了两个东西，一个是Lucene.Net的逻辑存储，另外一个就是如何操作逻辑存储。在逻辑存储上讲得比较详细，特别是关于权重部分，而操作则只简单提一下。因为，逻辑存储有助于理解Lucene.Net索引的流程，而操作则只是相当于CPU的指令，业务逻辑需要自己去实现。相信看了以上七篇文章，有助于对Lucene.Net索引的理解，当然，这里只讲了表面上的东西，更加深入地理解Lucene需要从更加底层的Directory入手。索引部分就暂时写到这里了，后面将进入搜索问题的探讨。

时间： 2024-10-04 14:05:06

Lucene.Net 2.3.1开发介绍 —— 三、索引（七）

Lucene.Net 2.3.1开发介绍 —— 三、索引（七）的相关文章

Lucene.Net 2.3.1开发介绍 —— 三、索引（五）

Lucene.Net 2.3.1开发介绍 —— 三、索引（四）

Lucene.Net 2.3.1开发介绍 —— 三、索引（六）

Lucene.Net 2.3.1开发介绍 —— 三、索引（二）

Lucene.Net 2.3.1开发介绍 —— 三、索引（三）

Lucene.Net 2.3.1开发介绍 —— 三、索引（一）

Lucene.Net 2.3.1开发介绍 —— 四、搜索（三）

Lucene.Net 2.3.1开发介绍 —— 二、分词（三）

Lucene.Net 2.3.1开发介绍 —— 四、搜索（一）