最近做了一个自动纠错演示网页

最近做了一个自动纠错演示网页:nfabo.cn

当 Query 中有一些错别字时,搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音,用一个拼音相同的已知 Query 代替。

但是,当输错的汉字是多音字,特别是有多个这样的错误输入时,所有的搜索引擎基本上都不管, 或者仅使用一个最常用的音去纠错。因为要考虑所有可能的拼音组合,在极端情况下会导致指数爆炸

我的算法解决了这个指数爆炸问题

  • 这个演示页面目前只收录了 800万 条 短语+词频,数据也不太干净
  • 该算法全部在内存中运行,使用了 360M 内存,这个数据量,如果用传统方法暴力实现,并且达到这个性能,需要 数以 TB 的内存
  • 这个服务器是一个租用的虚拟云主机,单核,比我2009年的笔记本电脑还要慢 3 倍

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户
Query 最小的词,使用我的算法也可以高效解决(还没做演示页面)

最近做了一个自动纠错演示网页

时间: 2024-09-30 00:20:06

最近做了一个自动纠错演示网页的相关文章

近期做了一个自己主动纠错演示网页

近期做了一个自己主动纠错演示网页:nfabo.cn 当 Query 中有一些错别字时,搜索引擎会尝试纠错 通过相似拼音纠错 搜索引擎把这些字还原成拼音,用一个拼音同样的已知 Query 取代. 可是,当输错的汉字是多音字.特别是有多个这种错误输入时,全部的搜索引擎基本上都无论. 或者仅使用一个最经常使用的音去纠错. 由于要考虑全部可能的拼音组合,在极端情况下会导致指数爆炸! 我的算法攻克了这个指数爆炸问题 这个演示页面眼下仅仅收录了 800万 条 短语+词频.数据也不太干净 该算法所有在内存中执

api实践:用图灵机器人api写一个自动应答的网页

图灵机器人平台是一个免费的API开放平台,基于自然语言处理.知识库和云计算等技术,为广大开发者.合作伙伴提供的一系列智能语义处理能力(包括语义理解.智能问答.知识库对接等)的服务平台.api使用地址:http://www.tuling123.com/openapi/record.do?channel=50044 今天 我用图灵机器人开放的api做了一个简单的实时应答程序:) robot.php: <?php error_reporting(0); $INFO=$_GET['info']; if(

今天做了一个简单的PHP网页

index.php <html> <head>     <title>First PHP</title> </head> <body> <form name="form_a" method="post", action="fa.php">     用户名:     <input name="user" type="text&qu

仿照Div.IO做的一个网页

总结 Div.IO是一个响应式的网页,对布局要求特别高,其中用到的是(1.左边固定右边自动随浏览器大小缩放,2.中间固定两边缩放,3.所有块随浏览器自动缩放),有些布局我平时很少用上,在这次做的过程中,布局是非常重要的,我总结了一下,一般常用的有一下布局 左自动+右固定 右自动+左固定 中自动+两边固定 这三种,关键词:{自动:block+margin,固定:float},这是我的方案.大家也可以写出自己的方案. 两边自动+中固定 关键词:block+margin 所有都自动 关键词:float

Mockplus原型交互跟我做之1 - 30秒做一个自动消失的消息框(Toast)

从现在做,跟我一起来认识Mockplus的交互. Mockplus的交互,非常简单.直观.容易上手.你所需要做的,只是拖一拖鼠标,然后几步设置而已. 当然,只要你愿意,还可以实现强大的交互效果. 不废话,先来做一个,试试. 我们来做一个自动消失的消息框(Toast). 请看视频:

iOS 手动做一个自动打包部署神器

之前使用的fastlane添加pgyer自动打包的,最近发现更新总是有问题,所以产生了自己shell做一个的想法.虽然代码比较少,但是很实用. 打包 导出ipa 上传pgyer 打包自动上传pgyer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

学做酷炫有爱的免费网页,学习 Github Page 教你分分钟搭建自己的博客

Github Page 网页搭建教程,教你分分钟搭建自己的博客 更多漂亮的网页搭建教程教程,请看这里:http://www.duobei.com/course/8506331668 1.注册Github账号 2.新建一个仓库,也就是我们代码要存放的位置 为我们仓库起个名字 3.为我们的仓库自动生成一个网页 点击Gihub Pages模块里的Automatic page generator 设置我们网页的Body内容 点击发布,生成我们的网页 按照 username.github.io/repos

撸一个自动换壁纸桌面应用

作为一名IT从业人员,一天当中陪着电脑的时间比陪家人的时间还要长.由于长时间盯着电脑屏幕,难免看厌了单调的桌面壁纸.本着换个壁纸,换种心情的目的,尝试了好几个自动换壁纸的windows桌面应用,要不是广告太烦,要不就是弹窗太惹人厌.于是,萌生了自已撸一个自动换壁纸桌面应用的想法. 现将换壁纸应用的构思.实现过程做以记录: 一.构思过程: 自动换壁纸这个诉求,拆开来看主要有两个方面.其一,能够更换桌面壁纸:其二,能够自动换壁纸. 先说说能够换壁纸.由于 window api 提供了相应的方法,原生

一个实用的C#网页抓取类代码分享

一个实用的C# 网页抓取类 模拟蜘蛛,类中定义了超多的C#采集文章.网页抓取文章的基础技巧,下面分享代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using Sys