输入法和大数据:也能扯上关系?

在当前的信息时代下,正面临着潜在的负载倾向。这种倾向反映到前沿科技上就是业界所谓的“大数据”——即指数据的总量过大,以至于传统的数据库难以将其消化,甚至无法负荷。而后,“大数据”一词又衍生出了指一类需使用大量数据运算的科技之意。

因此无论何时,只要我们关注的某类数据中包含着数十 亿(甚至数万亿)条来自网络及其他途径的记录,我们就是在谈论“大数据”。然而很多时候,我们都忽略了在每日与科技的接触中,比如使用移动设备上的自动纠错功能、文字处理软件和电邮客户端时,会与“大数据”一词产生多大的关联。

自动纠错与字词推荐

自动纠错功能有时错的令人无语,以至于许多网站致力于贴图展示那些搞笑(且经常黄暴)的“修改结果”。尽管如此,这种在移动设备上的自动改正错误拼写甚至预测下一个词语的功能依然是超乎想象的好用,毕竟更多时候它替你避免了许多由手指输入而可能造成的尴尬局面。

不过有时想想也会惊出一身鸡皮疙瘩。 智能机可以根据你键入的任意字母顺序,列出可能产生的所有词语结果。再考虑到外语编程的可行性,以及现在多数智能手机的滑动输入功能,可以说由此产生的几乎无限多的词语组合确确实实是“大数据”。

字词推荐和自动纠错功能基于一种智能手机自带的算法。基本来说,它可以将你的键入与内置词典进行比对,并找出与之不同的拼写。而它的的内置词典往往涵盖多种语言。举例来说,每次我键入外语字母时,手机都会提供相应词典的联想与纠错功能。

当键入的内容与字典相符时,手机会显示可能与其相配 的字词。如果建议的词语正确,这项功能会大大缩短打字时间,提高沟通效率。如果无可用结果,手机程序会继续提供更多字词选择,其中有的文法正确,有些还算合理,有些甚至你都没想过,剩下的基本就是网上那些“手机输入法搞笑图片”的素材了。

找到最合适的搭配

怎样的键入会有怎样的推荐词,这是程序员要面对的诸多挑战之一,这其中又包括如下两点:

1、 制作出全面的词库——该词库的功能不能因时代发展而打折,反而应与时俱进,具有高实用度,比如要收录容易出现在短信中的网络流行语等。

2、 敲定出没有明显缺陷的语言模型——该模型应可以检验用户输入的字词并对可能的错误给出合理建议。

这也就是说,如果键入了“taxos”,那么是“taxis”呢还是“tacos”呢?你的输 入法键盘会同时提供这两个推荐。但是如果你想输入的是“taxes”,那就需要输入法已知上下文意,如“there’s nothing sure but death and…”,才能正确给出taxes。如果并无前后文提示,只是单纯错输了taxos,除非使用极成熟的输入法,一般说来只能得到“taxis”、 “tacos”,或者“taxos”的推荐。当然,绝大多数使用自动纠错和字词联想功能的人还是会被它的精确率惊艳到的。

输入法如何知晓

Google搜索引擎的拼写检查程序会记录学习用户偏好,并据此对搜索结果加以修正。然而绝大多数的手机键盘并非如此智能,部分原因是收集用户的打字习惯并生成数据库很可能会侵犯个人隐私。

用于自动纠错的词库一般从不受专利限制的文集中获得词汇。程序员已经设计出了一系列的算法,用于识别常用句法,某词的主要用法和重复,拼写,以及可能的字母串位,当然还有由于键盘布局而时常发生的字母错误。

即使如此,手机也会学习你对于自动纠错后的字词的修正方式。这更常见于输入如商业术语等专有名词和新生词语时。

没有大数据对海量字词组合的管理 ,商业智能平台智能输入法也就无所谓智能了。然而,大数据还能让键盘变得比现有功能更具智慧。随着技术日趋成熟,手机可以存储更多信息,手机词库也将变得愈大、愈精。

时间: 2024-10-11 02:43:11

输入法和大数据:也能扯上关系?的相关文章

炒股App:又一个大数据丢在风口上的蛋

尽管炒股App处于刚刚勃兴阶段,但业内几乎在短时间内迅速就其产品模式达成了共识--将交易与交流相结合,组建日常化的投资社区.在此之下,不同背景与定位的炒股App开始探索各自的商业模式,谋求符合自己的生存之道 ... 文/张书乐 本文刊载于<销售与市场>杂志评论版2015年08期 据媒体报道,与2007年"大牛市"不同,2014年以来的大牛市伴随移动互联网的蓬勃发展,特别是微信.移动新闻客户端等加快了信息传播速度.2007年时,股票投资者还需要在同花顺.大智慧等PC客户端浏览

大数据开发:(三)flume上传HDFS

开启hadoop:start-dfs.sh 通过浏览器访问node节点,http://IP:50070 检查 (如果无法访问,将防火墙关闭) 如果jps查看缺少了某个节点,首先查看xml文件是否正确,如果正确,删除hadoop/tmp文件夹,然后再次格式化,(格式化会重新创建hadoop/tmp),再次启动 操作分布式文件存储系统HDFS 查看hdfs中的文件内容 hadoop fs -ls / 查看hdfs中的详细内容hadoop fs -ls / 在HDFS中创建文件夹hadoop fs -

云计算、机器学习、深度学习、人工智能和大数据,主要有什么关系?

业外人士如何了解云计算.机器学习.深度学习.人工智能.和大数据之间有什么内在联系?从应用的角度来阐述一下这五个概念之间的联系. 这五个概念按照领域可以划分成两个大部分,先分别介绍这些概念的内部联系,然后再综合介绍他们整体之间的联系. 云计算和大数据 云计算和大数据的很多研究内容是重叠的,比如分布式存储.分布式计算,可以说大数据是云计算发展到一定阶段的产物.云计算和大数据之间主要的区别在于关注的"点"不同,云计算强调服务(IaaS.PaaS.SaaS),而大数据则强调数据的价值(数据采集

【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes

使用hadoop上传文件 hdfs dfs -put  XXX 17/12/08 17:00:39 WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /user/sanglp/hadoop-2.7.4.tar.gz._COPYING_ could only be replicated to 0 nodes instead of m

那些年,曾经被我们误读的大数据 - Agenda - 世界经济论坛

body { font-family: Microsoft YaHei UI,"Microsoft YaHei", Georgia,Helvetica,Arial,sans-serif,宋体, PMingLiU,serif; font-size: 10.5pt; line-height: 1.5; } html, body { } h1 { font-size:1.5em; font-weight:bold; } h2 { font-size:1.4em; font-weight:bo

人工智能、大数据、金融和SaaS四大风口上看风向

(上图为IDG资本创始合伙人熊晓鸽)? 前言:企业服务创业的最后一道壁垒 4月,IDG资本创始合伙人熊晓鸽在一个CEO的晚宴上遇到了GE的CEO.GE是一家市值数千亿美元的公司,业务涉及飞机发动机.发电设备.金融服务.软件开发等庞大的企业级产品与服务.在这个晚宴上,GE CEO问熊晓鸽,为什么中国没有出现为企业提供服务的大型公司? 熊晓鸽认为这可能有两点原因.一是这可能与国有企业投资重点有关,中国的国有企业是IT的最大用户,但并没有真正投入大量资金用于IT和软件开发.另一方面是中国的风险投资不太

当传统企业遇上大数据

大数据绝对可以算得上当下的流行话题,购物要大数.出行要大数.看病要大数.上学要大数……,好像什么行业都能与大数据搭上边,又似乎一切都可以大数据了.对于经历过多年企业信息化的传统企业来说,大数据对于他们既清晰.又迷茫,他们有过数据仓库.数据挖掘.商业智能(BI)概念的洗礼,但又看不懂“大数据”与之前的概念有哪些不同. 按照百度百科的解释,大数据技术(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取.管理.处理.并整理成为帮助企业经营决策

大数据独角兽Palantir之核心技术探秘

Palantir源起 B2B大数据 企业级Google ▼ Palantir(中文名帕兰提尔,源于<指环王>中可穿越时空.洞悉世间一切的水晶球Palantír)被誉为硅谷最神秘的大数据独角兽企业,短短几年内跻身百亿俱乐部,成为全球估值排名第四的初创公司.它的主要客户只在美剧和好莱坞里出现,如美国联邦调查局(FBI).美国中央情报局(CIA).美国国家安全局(NSA).美国军队和各级反恐机构,当然还有如JPMorgan这样的华尔街金融大鳄等等.关于Palantir的传奇故事很多,CIA通过他家的

《大数据时代》读书笔记

大数据开启了一次重大的时代转型.就像望远镜让我们能够感受宇宙,显微镜让我们能够 观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源 泉,而更多的改变正蓄势待发-- 大数据的精髓在于我们分析信息时的三个转变,这些转变将改变我们理解和组建社会的方法. 第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和第一个转变就是,在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和 某个特别现象相关的所有数据,而不再依赖于随机采样. 某个特别现象相关的