最近做了一个自动纠错演示网页

最近做了一个自动纠错演示网页：nfabo.cn

当 Query 中有一些错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音相同的已知 Query 代替。

但是，当输错的汉字是多音字，特别是有多个这样的错误输入时，所有的搜索引擎基本上都不管，或者仅使用一个最常用的音去纠错。因为要考虑所有可能的拼音组合，在极端情况下会导致指数爆炸！

我的算法解决了这个指数爆炸问题

这个演示页面目前只收录了 800万 条短语+词频，数据也不太干净
该算法全部在内存中运行，使用了 360M 内存，这个数据量，如果用传统方法暴力实现，并且达到这个性能，需要 数以 TB 的内存
这个服务器是一个租用的虚拟云主机，单核，比我2009年的笔记本电脑还要慢 3 倍

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户
Query 最小的词，使用我的算法也可以高效解决（还没做演示页面）

最近做了一个自动纠错演示网页

时间： 2024-12-10 12:17:02

最近做了一个自动纠错演示网页的相关文章

近期做了一个自己主动纠错演示网页:nfabo.cn 当 Query 中有一些错别字时,搜索引擎会尝试纠错通过相似拼音纠错搜索引擎把这些字还原成拼音,用一个拼音同样的已知 Query 取代. 可是,当输错的汉字是多音字.特别是有多个这种错误输入时,全部的搜索引擎基本上都无论. 或者仅使用一个最经常使用的音去纠错. 由于要考虑全部可能的拼音组合,在极端情况下会导致指数爆炸! 我的算法攻克了这个指数爆炸问题这个演示页面眼下仅仅收录了 800万条短语+词频.数据也不太干净该算法所有在内存中执

api实践：用图灵机器人api写一个自动应答的网页

图灵机器人平台是一个免费的API开放平台,基于自然语言处理.知识库和云计算等技术,为广大开发者.合作伙伴提供的一系列智能语义处理能力(包括语义理解.智能问答.知识库对接等)的服务平台.api使用地址:http://www.tuling123.com/openapi/record.do?channel=50044 今天我用图灵机器人开放的api做了一个简单的实时应答程序:) robot.php: <?php error_reporting(0); $INFO=$_GET['info']; if(

今天做了一个简单的PHP网页

index.php <html> <head> <title>First PHP</title> </head> <body> <form name="form_a" method="post", action="fa.php"> 用户名: <input name="user" type="text&qu

仿照Div.IO做的一个网页

总结 Div.IO是一个响应式的网页,对布局要求特别高,其中用到的是(1.左边固定右边自动随浏览器大小缩放,2.中间固定两边缩放,3.所有块随浏览器自动缩放),有些布局我平时很少用上,在这次做的过程中,布局是非常重要的,我总结了一下,一般常用的有一下布局左自动+右固定右自动+左固定中自动+两边固定这三种,关键词:{自动:block+margin,固定:float},这是我的方案.大家也可以写出自己的方案. 两边自动+中固定关键词:block+margin 所有都自动关键词:float

Mockplus原型交互跟我做之1 - 30秒做一个自动消失的消息框（Toast）

从现在做,跟我一起来认识Mockplus的交互. Mockplus的交互,非常简单.直观.容易上手.你所需要做的,只是拖一拖鼠标,然后几步设置而已. 当然,只要你愿意,还可以实现强大的交互效果. 不废话,先来做一个,试试. 我们来做一个自动消失的消息框(Toast). 请看视频:

iOS 手动做一个自动打包部署神器

之前使用的fastlane添加pgyer自动打包的,最近发现更新总是有问题,所以产生了自己shell做一个的想法.虽然代码比较少,但是很实用. 打包导出ipa 上传pgyer 打包自动上传pgyer 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53

学做酷炫有爱的免费网页，学习 Github Page 教你分分钟搭建自己的博客

Github Page 网页搭建教程,教你分分钟搭建自己的博客更多漂亮的网页搭建教程教程,请看这里:http://www.duobei.com/course/8506331668 1.注册Github账号 2.新建一个仓库,也就是我们代码要存放的位置为我们仓库起个名字 3.为我们的仓库自动生成一个网页点击Gihub Pages模块里的Automatic page generator 设置我们网页的Body内容点击发布,生成我们的网页按照 username.github.io/repos

撸一个自动换壁纸桌面应用

作为一名IT从业人员,一天当中陪着电脑的时间比陪家人的时间还要长.由于长时间盯着电脑屏幕,难免看厌了单调的桌面壁纸.本着换个壁纸,换种心情的目的,尝试了好几个自动换壁纸的windows桌面应用,要不是广告太烦,要不就是弹窗太惹人厌.于是,萌生了自已撸一个自动换壁纸桌面应用的想法. 现将换壁纸应用的构思.实现过程做以记录: 一.构思过程: 自动换壁纸这个诉求,拆开来看主要有两个方面.其一,能够更换桌面壁纸:其二,能够自动换壁纸. 先说说能够换壁纸.由于 window api 提供了相应的方法,原生

一个实用的C#网页抓取类代码分享

一个实用的C# 网页抓取类模拟蜘蛛,类中定义了超多的C#采集文章.网页抓取文章的基础技巧,下面分享代码: using System; using System.Data; using System.Configuration; using System.Net; using System.IO; using System.Text; using System.Collections.Generic; using System.Text.RegularExpressions; using Sys