近期做了一个自己主动纠错演示网页

近期做了一个自己主动纠错演示网页：nfabo.cn

当 Query 中有一些错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音同样的已知 Query 取代。

可是，当输错的汉字是多音字。特别是有多个这种错误输入时，全部的搜索引擎基本上都无论。或者仅使用一个最经常使用的音去纠错。

由于要考虑全部可能的拼音组合，在极端情况下会导致指数爆炸！

我的算法攻克了这个指数爆炸问题

这个演示页面眼下仅仅收录了 800万 条短语+词频。数据也不太干净
该算法所有在内存中执行，使用了 360M 内存。这个数据量，假设用传统方法暴力实现，而且达到这个性能，须要
几十GB 的内存
这个server是一个租用的虚拟云主机，单核，比我2009年的笔记本电脑还要慢 3 倍

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户
Query 最小的词，使用我的算法也能够高效解决（还没做演示页面）

时间： 2024-10-17 07:09:23

近期做了一个自己主动纠错演示网页的相关文章

最近做了一个自动纠错演示网页:nfabo.cn 当 Query 中有一些错别字时,搜索引擎会尝试纠错通过相似拼音纠错搜索引擎把这些字还原成拼音,用一个拼音相同的已知 Query 代替. 但是,当输错的汉字是多音字,特别是有多个这样的错误输入时,所有的搜索引擎基本上都不管, 或者仅使用一个最常用的音去纠错.因为要考虑所有可能的拼音组合,在极端情况下会导致指数爆炸! 我的算法解决了这个指数爆炸问题这个演示页面目前只收录了 800万条短语+词频,数据也不太干净该算法全部在内存中运行,使用了

做为一个员工及团队成员应具备的基本素质(团队成员应该具备的一大素质(从主管的角度出发))

做为一个主管心里一直都有一大痛感: 安排下去的每个任务,都需要管理者从头到尾的跟着,事情的每一点前进都需要主管推着前进? 这样主管非常的痛苦. 问题体现在哪里? (1)主管不知道事情安排给一个员工后,进度如何不知道,要去追问. (2)主管不知道事情安排给一个员工后,不知道事情有什么风险会不会卡住 (3)主管不知道事情安排给一个员工后,不知道做完了.员工手上还有没有事情. 答案为了解决这些问题我们想了一堆管理的工具,可是都是收效甚微. 考虑了一下,还是以人为本,从人的角度出发才是根本: 一个比较

FMX相当于在界面上自己又做了一个小操作系统

FMX的自画界面我也不看好,比如复制粘贴,太丑了,系统做得很好很精细的复制粘贴界面,就是无法调出,比如MIUI,复制粘贴还能有个放大镜,可以选择到屏幕边缘的文字,可以选择剪贴板内多个可粘贴的文字:还有那个Memo,有的时候该折行的不折行,有的文字看不到了.文本输入框,隐藏剪贴板后,再点击就弹不出来了:系统本身的文本框就没有这个问题.底部输入框输入时自动上移界面,好像是操作系统本身就有的吧,FMX还得自己编很多代码,也不一定编好.自己编码补漏洞是另外一回事.FMX给我的感觉是在界面上自己又做了一个

【随笔】昨晚做了一个梦

昨晚做了一个梦,可能是最近玩<魔兽世界>的缘故,梦的风格很游戏~ 当然,关键不在于这个梦的风格啦,在于一个片段的内容.与邪恶者的斗争过程中,兄弟我临危受命,去寻找传说中的“先知”(不知道在梦中叫什么,因为记不清了,叫“仙女”??).我自然是不费吹灰之力就找到了那妹妹~并非出现在天上,只是坐着马车的一个白衣妹妹.见到她,当然很高兴,可是在我询问问题的时候,似乎忘记了我的使命,问出的问题居然是“我和小耗子会幸福一生么?”答案我很满意,她说“当然,你们会幸福一生”,嗯嗯,尽管是个梦,可是说不

自己做的一个输入输出缓冲池

2014-05-15 22:02 by Jeff Li 前言系列文章:[传送门] 马上快要期末考试了,为了学点什么.就准备这系列的博客,记录复习的成果. 正文-计数概率概率论研究随机事件.它源于赌徒的研究.即使是今天,概率论也常用于赌博.随机事件的结果是否只凭运气呢?高明的赌徒发现了赌博中的规律.尽管我无法预知事件的具体结果,但我可以了解每种结果出现的可能性.这是概率论的核心. "概率"到底是什么?这在数学上还有争议."频率派"认为概率是重复尝试多次,某种结

用MVVM做了一个保存网页的工具-上篇

前言: 你是否有过收藏了别人博客或文章,当想用的时候却找不到?你是否有过收藏了别人博客或文章,却因为没有网络而打不开网页?OK,下面是我做的一个工具,有兴趣的同学们可以download 玩下,哈哈^.^

利用KBEngine +U3D 做的一个简单MMO手游Demo

利用KBE +U3D 做的一个简单MMO手游Demo目前只完成到一个普通攻击和一个火球术, 火球术需要点击怪物后才能释放.点击npc后会跳到一个副本.里面有一只半兽人. 欢迎大家来试玩并提出宝贵意见.http://pan.baidu.com/s/1dDtVjnb 感谢kbe 一直以来的帮助.

做了一个密码强度输入测试

<!doctype html> <html> <head> <meta charset="utf-8"> <title>密码强度输入测试</title> <style type="text/css"> .cont { margin-left:300px; margin-top:50px; border:solid 1px #ccc; width:520px; padding:20px

bootstrap做了一个表格

花了一下午做了一个表格: 大致是这样: 代码如下: <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title>广发互联小贷</title> <meta name="keywords" content="广发互联小贷" /> <meta name="description" co