利用 lucene.net 实现高效率的 WildcardQuery ，记一次类似百度搜索下拉关键字联想功能的实现。

打开百度输入

站内搜索也要实现类似功能。最基础的做法，写个方法查数据库搜索历史综合表keywordSearch（先将被搜索过的关键字记录到一张表，记录好他们被搜索的次数、上次搜索的有多少结果）

大概一条sql语句：select keyword,searchCount,xxxx from table where keyword like ‘会计%‘

当表 keywordSearch 记录很有几百上千万的时候，like显然不能及时响应了。但是这种关键字联想的一旦有延迟返回，那是很不好的体验。还没等你返回一次联想结果，用户早就自己输完了。。。。。那还联想个球。

然后这个时候，想到的是用lucene.net

二话不说开干。很快实现了demo，创建了索引2g，搜索核心代码如下：(渣渣代码，勿喷)

测试之，大概在1秒内能返回结果，但是还是不够快，有明显的延迟感。

尼玛。。。。。想不到好办法解决，然后试了试用RAMDirectory ，还是不行，毕竟 RAMDirectory 只是将索引一次性读到内存，避免了一个预热的过程，所以瓶颈感觉应该出在了这个WildcardQuery上(谁知道lucene.net要实现这种查询，还有其他办法效率高吗？看到的有知道的请评论告诉我谢谢。)。

当时想的是，看样子只能丢掉一些关键字，比如只汇总最近一年的关键字，把索引搞小一些。

but，周末休息了一下，让我想到了一个办法。

既然要减少单个索引体积，那我为什么不拆分索引？

首先，创建索引的时候，根据关键字的第一个汉字的首字母，来决定放在哪个索引。比如 “会计学” 放在 D:\LuceneIndex\Searchkeyword\k\ 目录下的索引，"管理学"放在 D:\LuceneIndex\Searchkeyword\k\ 目录。

然后检索的时候我也根据用户输入的关键字，检索不同的目录。这样应该就能解决这个问题。

说干就干，又开始改代码。

因为代码篇幅比较大，我就贴一点核心部分。(再次请求原谅我的渣渣代码。。。。)

那个 GetIndexWriter 方法，就是根据汉字首拼字母来获取的，

BLLIndexWriter类里面用 Dictionary<string, string> 对象，来装所有字母和它对应的索引路径。

然后用了一个 Dictionary<string, IndexWriter> 对象，来装所有字母，和它所对应的 IndexWriter 对象。

当索引全部创建完毕以后，遍历了装所有 IndexWriter 的对象，然后一个个关闭并优化。

最后，索引就一一对应到不同目录了

见图，原来的索引和现在的索引。

平均分了这么多以后，搜索基本上是马上就出结果了。因为每一个都只有几十MB一百MB的。这点量，lucene的通配还是能搞的定的。

对于此类查询，数据库上分表，然后like也可以。只要你愿意用数据库搞的话。

不过谁还知道，有没有什么更好的办法解决这个问题？

记录到这里。渣渣代码不上传了，如果有谁刚好需要写这样的功能，又实在写不出来代码的内线我，我发一份给你。。。。。

时间： 2025-01-02 14:26:08

利用 lucene.net 实现高效率的 WildcardQuery ，记一次类似百度搜索下拉关键字联想功能的实现。的相关文章

android利用PopupWindow实现点击工具栏弹出下拉菜单

1.概述本文将介绍如何利用PopupWindow实现点击屏幕顶部工具栏按钮弹出下拉菜单的功能.先上图: 2.代码实现首先是activity_main.xml布局文件: <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns:tools="http://schemas.android.com/tools" android:layout_width=&qu

利用Lucene和 XPDF 来处理pdf文件

/* * 利用Lucene和 XPDF 来处理pdf文件 * */ package pdfbox; import java.io.File; import java.io.IOException; public class Pdf2Test { //PDF文件名 private File pdffile; //转换器的存放位置,默认为E:\\xpdf下 ... www.songtaste.com/user/10320243/infowww.songtaste.com/user/1032024

利用lucene和pdfBox对PDF文本进行内容的解析

/* * 这段代码的功能是利用PDFBox.zip的包 * 利用lucene对PDF文本进行内容的解析 * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中 * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOut... songtaste.com/user/10335914/infosongtaste.com/user/10335923/infosongtaste.com/user/10335

利用lucene对PDF文本进行内容的解析

/* * 这段代码的功能是利用PDFBox.zip的包 * 利用lucene对PDF文本进行内容的解析 * 读取pdf文件的内容.然后重新的写入到同名的.txt文件中 * */ 结果截图: package pdfbox; import java.io.File; import java.io.FileOutputStream; import java.io.OutputStreamWriter; import java.io.Writer; import java.net.MalformedU

利用lucene创建实现全站新闻搜索

jar包:lucene-core-2.3.2.jar 到相关官网下载 //建立线程通用类LuceneUtil import java.io.File; import java.io.IOException; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.Standar

硅谷行记二：走进百度美国研发中心

硅谷行记二:走进百度美国研发中心牛智超02月01日 12:44 分享到: 4 百度百家

ajax技术实现登录判断用户名是否重复以及利用xml实现二级下拉框联动

今天学了ajax技术,特地在此写下来作为复习. 一.什么是ajax? 客户端(特指PC浏览器)与服务器,可以在[不必刷新整个浏览器]的情况下,与服务器进行异步通讯的技术即,AJAX是一个[局部刷新]的[异步]通讯技术, 说白了就是局部刷新. 二.ajax的原理如下图附上ajax与服务器之间的几种状态,但 4是所有浏览器都支持的的三.ajax包含的技术如下图四.ajax开发步骤步一:创建ajax对象,例如:ajax = createAjax(); 步二:开启异步对象:例如:ajax.o

利用FlashPaper实现类似百度文库功能

最近需要实现一个类似百度文库的功能,在Google上淘了一段时间,发现FlashPaper还算能够不错的实现此需求. 首先讲下思路: 1>安装FlashPaper: 2>利用java代码将doc等文件转换为swf文件: 3>页面展示swf即可. 关于FlashPaper的使用及安装这里就不再赘述,网上的资料很多,可以自行Google. 下面是java下如何利用FlashPaper将doc等文件转化为swf文件--> @param swfName 指定生成的swf文件名@param

利用下拉框的方法进行txt列表中内容的左右切换

利用下拉框的方法实现两个txt列表内内容的左右切换 <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title></title> </head> <body> <select id="left" size="10" multiple="multiple" style=

猜你喜欢

敏捷开发

学习内容: 敏捷开发 Agile Development 是一种软件开发流程,开发方法,能够知道我们按照规定的环节一步步的去完成项目的开发任务,主要驱动核心是人,采用的是迭代式的开发. 是相对于瀑布开 ...

SQL语句总结

SQL UNION 操作符合并两个或多个 SELECT 语句的结果. 语法: SELECT column_name(s) FROM table1 UNION SELECT ...

Java访问权限控制

访问权限控制 java提供了访问权限修饰词,以供类库开发人员向客户端程序员指明哪些是可用的,哪些是不可用的.访问权限控制的等级,从最大权限到最小权限依次是:public.protected.包访问 ...

每天一个 Python 小程序--0004

第 0004 题:任一个英文的纯文本文件,统计其中的单词出现的个数. ----------------------------------------------------------------- ...

QEMU KVM libvirt手册(2)

Administrating Virtual Machines with QEMU Monitor When QEMU is running, a monitor console is provide ...

链式编程

1 package com.nd.pdca.model; 2 3 public class Manager { 4 5 private String id; 6 private String user ...

Backbone源码解读（一）事件模块

Backbone源码浅读: 前言: Backbone是早起的js前端MV*框架之一,是一个依赖于underscore和jquery的轻量级框架,虽然underscore中基于字符串拼接的模板引擎相比如 ...

Java-Hashtable源码分析及示例

纸上得来终觉浅,绝知此事要躬行 --陆游问渠那得清如许,为有源头活水来 --朱熹和HashMap一样,Hashtable也是一个散列表,存储的内容也是键值对key-value映射.它继承 ...

移动端flex布局微信和UC的兼容性

请查看以下两个链接 http://www.tuicool.com/articles/Afq6Bzq http://www.sheng00.com/2148.html

Qt：解析命令行

Qt从5.2版開始提供了两个类QCommandLineOption和QCommandLineParser来解析应用的命令行參数. 一.命令行写法命令行:"-abc" 在QComm ...

[codeforces 670C]Cinema

题目原文戳这里题目大致翻译:莫斯科现在要举行一次来自不同国家科学家参加的大会,每个科学家都有各自的语音,用1到10^9的整数表示.会议晚上所有科学家去看电影,每部电影的声音和字幕是两种不同的语言,如 ...

eclipse常用设置(字体设置、jdk版本更改、编码更改)

Unicode 统一编码表 ASCII GB2312 GBK Eclipse的常用配置设置字体样式 Window——> preferences ——> General ——> Ap ...

mysql中的事件调度功能

使用mysql的事件功能几个前提: 一:使用的版本必须是5.1或者以上的,因为5.1以后才支持此功能二:检查是否开启了事件功能: SHOW VARIABLES LIKE 'event_schedul ...

codevs 必做：2776、1222

2776 寻找代表元时间限制: 1 s 空间限制: 256000 KB 题目等级 : 黄金 Gold 题解题目描述 Description 广州二中苏元实验学校一共有n个社团,分别用1到n编号.广 ...

sqlserver的IO性能检查

这一个月老被一个信息科科长纠缠,原因就是他们的sql server 2008 R2老是定期的写入性能低下.我是这样认为的,但身边的人似乎都不这么想.每每我对那个挂在一个交换机上的网络存储表达担忧时,这 ...

Rsync 文件同步(windows下安装部署)

更多博文请关注:没有伞的孩子必须努力奔跑 (www.xuchanggang.cn) Rsync windows版本安装包:(这里下载的是4.0.5)下载地址:http://www.pc6.com/so ...

软件工程概论-合作作业01

一.要求求一整数数组(有负数)循环子数组之和的最大值. 二.思路 1.从数组的后面排除小于0或者累加小于0的,用max记录被排除的子数组的和的最大值: 2.循环则变化原数组,如{a0,a1,...a ...

layer-list实现只有左、右和下边框的圆角矩形

项目中需要实现如下效果的布局也就是一个左右下角带圆角,上方不带圆角的白色背景矩形,而且只有左.右和下边框,颜色为浅灰色. 当然,切一个.9图片作为背景也能实现,但是能用代码实现的还是尽量用代码实现, ...

链表类问题（循环链表，双向链表）

输入1个数字和多个字符,中间均以空格隔开.假设数字取值为m(范围1~9),后面字符个数为n.假设n个字符围成一圈,从第一个字母开始循环报数,当数到m以后,第m个字母就出列,直到这n个字母全部出列.最 ...

android sdk 国内镜像地址

启动 Android SDK Manager ,打开主界面,依次选择「Tools」.「Options...」,弹出『Android SDK Manager - Settings』窗口: 在『Andro ...

专题

随机推荐

© 2025 憋错料 | info#biecuoliao.com | 10 q. 0.022 s.