输入法之语料选择

影响输入法体验的有两块，候选命中以及视觉交互，视觉交互就是看到的键盘以及用户的使用的方便程度，尤其是在手机输入法中，键盘布局以及一些默认设置等细节对体验影响很大。候选命中就是指用户输入拼音时，能否把用户的想要的东西放在第一位显示处理。

我们重点关注候选命中，UI是设计师的事情:)

影响候选命中因素很多，比如模型选择、剪枝策略等，其中决定候选命上限，也就是天花板的绝对是训练预料，没有之一，后续的各种tricy都是为了逼近这个上限。

选择的靠谱的语料，事半功倍。

如何选择语料呢？谈到语料，就需要明确下输入法的使用场景，所谓场景，就是谁来使用。

比如使用QQ时输入聊天场景，编辑新闻时输入正文场景，写论文、医学书籍、写blog等等，都属于不同的场景。

正常来说，所有的场景都需要，我们指的是最大化解决那个场景的问题。

无论是PC还是手机，大家面对的大都是聊天场景，尤其是手机输入法。

如果我们有一个T规模的聊天语料，比如QQ或者短信，很多事情可以简化。不过这个难度很大，很难获取到。

做过了两种尝试：

1.使用互联网网页，随机抽取1T左右的网页作为训练预料

2.对互联网网页分类，新闻、blog、电商等，按照场景配比，比如使用blog语料来刻画聊天语料。

原以为#2的效果会很好，最后对比起来，#2的效果在对比测试集合上比#1差了10%.

最后分析了一下，全网网页虽然是大杂烩，但是某种程度上是天然的语料配比，用户需要的多的，语料自然就多。人工无论怎么做，都是有偏差的。

和一些朋友沟通下，大家一般都是使用全网网页来做的。

不过如果想增加在某个场景的效果，可以认为增加一些语料，比如加入旺旺聊天语料可以增加电商方面的沟通体验。

语料确定后，需要去噪音，训练过程是无监督的，对噪音不敏感，特殊的需要把重复的网页做一下过滤，比如一些网页，被无数网页转载，会加大某些特征出现频度，导致model偏差

基本上模型就ok，在模型训练时，根据model需求，做一些特殊处理。

输入法之语料选择

时间： 2024-10-05 19:32:45

输入法之语料选择的相关文章

Mac 输入法小技巧

相信使用Mac的朋友第一次使用Mac首先要考虑的就是输入法的问题,现在越来越多的第三方输入法都开始支持Mac平台,是否有同学仍然执着于看似“不符”国人习惯用法的OS X自带拼音输入法呢?自带的拼音输入法经过优化,添加了很多Windows平台下第三方输入法常用的功能,比如:动态词表.模糊音.中英文混输等.当然,它的新功能远不仅如此,下面PC6苹果网给大家分享下这些小技巧,对于初次使用 Mac OS 自带拼音输入法的同学应该非常有用. 一.中英文混输 Mac 上的中英文切换是 caps lock 键

CentOS Linux 中文输入法安装及设置

安装: 1.需要root权限,所以要用root登录 ,或su root 2.yum install "@Chinese Support" 3.exit 4.回到桌面,system->preferences->input method 5.如果没有,先注销一下. 6.按照提示添加输入法. 7.最后再次注销,登录即可. 设置: 在linux CentOS中安装完中文输入法之后,还不能使用,必须进行相应的设置,就如同在windows中设置中文输入法一样,必须把刚刚安装的输入法添

删除三星内置输入法后千万不要加密设备

三星手机root后,不少用户会删除三星内置输入法而去选择安装第三方输入法.过后,用户可能又想试一下"加密设备"功能,要加密设备首先要设置密码,设置密码就需要键盘.加密设备后,以后手机开机都需要输入密码了.但问题是,在输入开机密码前,第三方输入法也被加密了,自然第三方输入法就加载不了.而要开机就必须输入密码,那么就导致无键盘可输入密码,因为你已经把原厂内置的输入法给删除卸载了! 猜想一下,卸载一些内置应用后再加密设备会出现一些什么现象?加密设备会加密除系统应用外的第三方应用,那么会导致第

虚拟化桌面设备输入法

设置默认输入法经常有人登陆应用和桌面,需要用输入法,但是系统默认的微软输入法用着也不习惯.下面手动设置成默认的输入法(比如百度.搜狗等). 每种输入法在注册表里都有一个指定的序列号,输入法库位于 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Keyboard Layouts 默认英文输入法为:00000409 搜狗拼音 E0220804 搜狗五笔 E0230804.根据安装顺序不同,输入法代号会不一样,具体根据输入法库来选择.

搜狗五笔输入法打不出"屌"字等的解决办法

用了五笔好长时间,有时候,有些特殊的字打不出来,比如:"屌" 字. 研究了好久,原来是编码不对,选择选中 GBK码. 方法如下: 1. 右击输入法栏 2. 选择 "快速切换"--勾选"GBK字符",然后就可以打出来了,屌字的五笔码是NKMH. 乐意黎原创, 禁止转载本文地址: http://blog.csdn.net/aerchi/article/details/46973893 版权声明:本文为博主原创文章,未经博主允许不得转载.

Linux Mint安装ibus五笔和拼音输入法简明教程

Linux Mint使用终端安装ibus五笔和拼音输入法按Ctrl+Alt+T快捷键打开终端,然后运行下面的命令.ibus是输入法框架,ibus-table-wubi是五笔输入法引擎,ibus-pinyin是拼音输入法引擎. sudo apt-get install ibus ibus-table-wubi ibus-pinyin 设置Linux Mint的输入法框架 Linux Mint没有默认的输入法框架,我们可以在终端里用im-config工具来设置一个输入法框架.im-config的意

Win10输入法切换兼容Win7按法设置

很多人,都是直接从win7升级到win10,在使用的时候,刚开始难免纠结于输入法中英文切换按法. win7下的按法是ctrl+空格,或者ctrl+Shift切换输入法 win10下是win+空格为了那些纠结的人,我研究了win10下输入法切换兼容win7的设置: 原理: 同一语言下,不同输入切换是ctrl+Shift 不同语言间,切换是win+空格 1.删除微软拼音 1)添加英文语言 2)设置英语为默认语言 3)删除中文语言 4)安装自己喜欢的中文输入法安装好后,桌面右正角可以看到语言为 2

树莓派3b基于UbuntuMate下载中文输入法

输入命令:sudo apt-get install fcitx-sunpinyin,就可以下载中文输入法包了. 命令格式:sudo apt-get install package是下载安装包.apt-get(Advanced Package Tool)是Linux的应用程序管理器. 选择->系统:首选项:个人:语言支持键盘输入法系统:选择fcitx Configure一下键盘,在Addon选项选择拼写后,点击下面的Configure 然后Sunpinyin就出现啦,啦啦啦啦然后Ctrl+sh

ubuntu1804搜狗拼音输入法突然失效的解决办法

ubuntu1804安装了搜狗拼音,本来用的好好,有一天突然闪了一个错误,就无法设置了.只剩下ibus. 忍受了一周之后,还是想换回搜狗.于是在网上找了各种资料,要弄回来呀,不然输入太慢了. 方法一.重新安装先是下载了新的.deb文件,直接双击安装就好,安装很顺利.然后,选择左下角[应用程序],选择[语言支持],选择[键盘输入法],选择fcitx,然后,点击上面的[应用到整个系统]. 可惜,奇迹没有发生,还是无法. 方法二.设置输入法择左下角[应用程序],选择[输入法],选择一步步操作,还是