利用 lucene.net 实现高效率的 WildcardQuery ,记一次类似百度搜索下拉关键字联想功能的实现。

打开百度输入 

站内搜索也要实现类似功能。最基础的做法,写个方法查数据库搜索历史综合表keywordSearch(先将被搜索过的关键字记录到一张表,记录好他们被搜索的次数、上次搜索的有多少结果)

大概一条sql语句:select keyword,searchCount,xxxx from table where keyword like ‘会计%‘

当表 keywordSearch 记录很有几百上千万的时候,like显然不能及时响应了。但是这种关键字联想的一旦有延迟返回,那是很不好的体验。还没等你返回一次联想结果,用户早就自己输完了。。。。。那还联想个球。

然后这个时候,想到的是用lucene.net

二话不说开干。很快实现了demo,创建了索引2g,搜索核心代码如下:(渣渣代码,勿喷)

测试之,大概在1秒内能返回结果,但是还是不够快,有明显的延迟感。

尼玛。。。。。想不到好办法解决,然后试了试用RAMDirectory ,还是不行,毕竟 RAMDirectory 只是将索引一次性读到内存,避免了一个预热的过程,所以瓶颈感觉应该出在了这个WildcardQuery上(谁知道lucene.net要实现这种查询,还有其他办法效率高吗?看到的有知道的请评论告诉我谢谢。)。

当时想的是,看样子只能丢掉一些关键字,比如只汇总最近一年的关键字,把索引搞小一些。

but,周末休息了一下,让我想到了一个办法。

既然要减少单个索引体积,那我为什么不拆分索引?

首先,创建索引的时候,根据关键字的第一个汉字的首字母,来决定放在哪个索引。比如 “会计学” 放在 D:\LuceneIndex\Searchkeyword\k\ 目录下的索引,"管理学"放在 D:\LuceneIndex\Searchkeyword\k\ 目录。

然后检索的时候我也根据用户输入的关键字,检索不同的目录。这样应该就能解决这个问题。

说干就干,又开始改代码。

因为代码篇幅比较大,我就贴一点核心部分。(再次请求原谅我的渣渣代码。。。。)

那个 GetIndexWriter 方法,就是根据汉字首拼字母来获取的,

BLLIndexWriter类里面 用  Dictionary<string, string> 对象,来装所有字母和它对应的索引路径。

然后用了一个 Dictionary<string, IndexWriter> 对象,来装所有字母,和它所对应的 IndexWriter 对象。

当索引全部创建完毕以后,遍历了装所有 IndexWriter 的对象,然后一个个关闭并优化。

最后,索引就一一对应到不同目录了

见图,原来的索引和现在的索引。

平均分了这么多以后,搜索基本上是马上就出结果了。因为每一个都只有几十MB一百MB的。这点量,lucene的通配还是能搞的定的。

对于此类查询,数据库上分表,然后like也可以。只要你愿意用数据库搞的话。

不过谁还知道,有没有什么更好的办法解决这个问题?

记录到这里。渣渣代码不上传了,如果有谁刚好需要写这样的功能,又实在写不出来代码的内线我,我发一份给你。。。。。

时间: 2025-01-02 14:26:08

利用 lucene.net 实现高效率的 WildcardQuery ,记一次类似百度搜索下拉关键字联想功能的实现。的相关文章

android利用PopupWindow实现点击工具栏弹出下拉菜单

1.概述 本文将介绍如何利用PopupWindow实现点击屏幕顶部工具栏按钮弹出下拉菜单的功能.先上图: 2.代码实现 首先是activity_main.xml布局文件: <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" android:layout_width=&qu

利用Lucene和 XPDF 来处理pdf文件

/*  * 利用Lucene和 XPDF 来处理pdf文件  * */ package pdfbox; import java.io.File; import java.io.IOException; public class Pdf2Test { //PDF文件名 private File pdffile; //转换器的存放位置,默认为E:\\xpdf下 ... www.songtaste.com/user/10320243/infowww.songtaste.com/user/1032024

利用lucene和pdfBox对PDF文本进行内容的解析

/*  * 这段代码的功能是利用PDFBox.zip的包  * 利用lucene对PDF文本进行内容的解析  * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOut... songtaste.com/user/10335914/infosongtaste.com/user/10335923/infosongtaste.com/user/10335

利用lucene对PDF文本进行内容的解析

/* * 这段代码的功能是利用PDFBox.zip的包 * 利用lucene对PDF文本进行内容的解析 * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中  * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.MalformedU

利用lucene创建实现全站新闻搜索

jar包:lucene-core-2.3.2.jar 到相关官网下载 //建立线程通用类LuceneUtil  import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.Standar

硅谷行记二:走进百度美国研发中心

硅谷行记二:走进百度美国研发中心 牛智超02月01日 12:44 分享到:                                                                                                                                                      4 百度                                       百家                  

ajax技术实现登录判断用户名是否重复以及利用xml实现二级下拉框联动

今天学了ajax技术,特地在此写下来作为复习. 一.什么是ajax? 客户端(特指PC浏览器)与服务器,可以在[不必刷新整个浏览器]的情况下,与服务器进行异步通讯的技术  即,AJAX是一个[局部刷新]的[异步]通讯技术, 说白了就是局部刷新. 二.ajax的原理如下图 附上ajax与服务器之间的几种状态,但 4是所有浏览器都支持的的 三.ajax包含的技术如下图 四.ajax开发步骤 步一:创建ajax对象,例如:ajax = createAjax(); 步二:开启异步对象:例如:ajax.o

利用FlashPaper实现类似百度文库功能

最近需要实现一个类似百度文库的功能,在Google上淘了一段时间,发现FlashPaper还算能够不错的实现此需求. 首先讲下思路: 1>安装FlashPaper: 2>利用java代码将doc等文件转换为swf文件: 3>页面展示swf即可. 关于FlashPaper的使用及安装这里就不再赘述,网上的资料很多,可以自行Google. 下面是java下如何利用FlashPaper将doc等文件转化为swf文件--> @param swfName 指定生成的swf文件名@param

利用下拉框的方法进行txt列表中内容的左右切换

利用下拉框的方法实现两个txt列表内内容的左右切换 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> <select id="left" size="10" multiple="multiple" style=