世界杯没有秘密:有人趴在角落里悄悄读着球员的唇……

世界杯已经过半,残酷的淘汰赛也已经马上就要进入四分之一决赛。相比场内球员们的激情和球迷的热情,场外关于各球队的报道也是让人目不暇接。其中最令人好奇的,大概要算教练和球员们之间的一些“耳鬓厮磨”了。

比如西班牙和俄罗斯的点球大战。当西班牙主帅耶罗决定让科克踢点球的时候,科斯塔表达了不同意见,并多次向耶罗、科克和队长拉莫斯进行交流。然而这并没有什么用,科克还是踢了第三个点球,并成功罚丢,导致志夺冠的西班牙就此结束了在本届世界杯的征程。

类似的情况还出现在小组赛阿根廷1:1暂平尼日利亚的时候,桑保利去询问梅西该不该上阿圭罗,只见梅西点了点头,随后阿圭罗被换上。

问题是,好像我们看球除了现场球迷的呼喊声之外,听到最多的大概要算是踢足球的声音了,教练球员之间的交流我们也是只见其人不闻其声。那些电视台是怎么知道他们说了什么话的?难道是后台进行了采访?

非也。实际上,要弄懂他们在说什么其实很简单,就是对口型。正规说法就是:读唇语。

听起来是不是很高端?

从“手工时代”到人工智能

唇语之用,最早在于帮助听力障碍人群获取语言信息,让其过上正常人的生活。在这个意义上,其作用于手语相当。但与手语不同的是,读唇语是一件难度很高、即便费尽心思去练习也不一定学有所成的事情。

学唇语首先得视力好,俗称眼尖。不要求几里地之外明察秋毫,至少能在几十米外看见嘴唇动作吧。传说中英国职业唇语破解女王杰西卡就说自己能在四十米开外的地方通过读唇来破解别人说话的内容。所以,不是歧视大家,那些五米之外人畜不分的近视群体这辈子还是不要再想着读唇语这件事了……

正是由于掌握的人数少,现实中见得不多,读唇语就变成了一件神秘而高大上的事情。在这个时代,我们姑且可以把它成为唇语的“手工时代”。

而在近两年,长期处于靠个人努力来维持现状的唇语突然就火了起来,似乎在一夜之间变成了一件唾手可得的事情。而造成这一现象的根本原因,就是人工智能视觉识别技术的发展,或许我们可以把它称作唇语识别的人工智能时代。比如《机器姬》当中机器人夏娃读取内森和迦乐的嘴部动作来识别内容。那么,人工智能识别唇语在现实中又有哪些表现呢?

从技术原理上来说,读唇语这件事正适合人工智能来做。通过对说话人嘴部说话的连续动作的捕捉,然后将其与单词发音进行匹配,最终经过不断地修正,得出动作、发音、语义三者最协调的句子,从而实现唇语的破解。

比如2016年Deepmind联合牛津大学推出的人工智能唇语识别系统。通过对该系统进行超过5000小时、11800条新闻视频的训练学习,其在最终的视频测试中达到了46.8%的识别正确率,而人类则仅仅为12.4%。这个差距可以说是相当明显了。

而在国内也有公司开发了相关的唇语识别AI。去年乌镇互联网大会上,搜狗也显示了自己在唇语识别上的成果,其采用的则是新闻视频、电视节目、普通人说话等综合场景来训练的方法。当然,这项技术的开发仍然处于起步阶段,想要完成想象中的唇语通吃,大概仍然需要时间。

可以确定的是,在视觉识别技术不断提升的情况下,唇语识别即将由一项传说中的“秘术”变成人人都可装备的日常工具。但把读唇语变成一种通用的语言辅助工具,真的是很容易的一件事的吗?

读唇语对人不易,AI亦如是

我们知道,人工智能的深度学习是建立在大量相关材料的基础上的,比如Deepmind训练一个唇语识别的人工智能,总时长达到了5000个小时,而识别成功率也还不到50%。然而对现阶段的处于识别来说,这已经是一个非常好的数据了,毕竟顶尖的人类唇语识别专家也才有百分之十几的成功率。那么,既然唇语识别这么难,人工智能要想拿下它,又应该需要注意哪些问题?

第一,要解决口型不一致的问题。口型不一致的问题体现在两个方面。

一方面,由于音准的不同,不是所有的人发出同样的音节的时候都是会产生同样的动作。这点动作从人类的视角来看可能难以发现,但从擅长识别微表情的人工智能的时间来说,些许的动作差别可能就会造成误判。比如一个傻子口齿不清,人们听起来都费劲,就更不要说读唇识别了。

另一方面,同一种语言由于地域的不同,同一个字也可能存在不同的发音方式。比如“六”,在普通话的读音中,它读作“liù”;而在南方方言里,很多情况下它被读作“lù”,甚至在其他地区还有读成“luò”“lo”等。那么,在识别方言这一块儿,人工智能遇到的麻烦也是不小。

第二,人工智能唇语识别的语气问题。既然是识别说话内容,就不可避免地要涉及说话者的语气。同一个词语、同一句话,由于说话者语气的不同,其也可能会造成不同的语义。比如“你弄啥类”,加个问号表示疑问,加个叹号就代表的是愤怒。所以,单纯识别说话者语言内容将会限制唇语识别的功能,如何将说话者的表情、动作、场景等一系列和表达有关的因素统一到唇语识别当中去,也是一个需要考虑的问题。

第三,在很多情况下我们并不需要人形机器人一样,我们也不一定非得让唇语识别变成一个万事通。在对其进行训练的时候,我们可以根据使用的具体场景来进行专门的素材搜集。比如地铁站自动卖票,就只需要针对站点名称的口型作重点训练。这样就可以避免特定场景下由无效工作而带来的繁琐。

更重要的是,语言是一个非常庞大的知识库,如果想要精确地实现对各种情况下的唇语的识别,海量的语音、动作训练将是一个耗时巨甚的工作量。

唇语虽小,潜力却大

毫无疑问,当唇语识别技术成熟,其应用前景是非常乐观的,比如以下几个方面。

1. 安防领域。家庭摄像头功能、场景都比较单一,一般都会有麦克风进行声音搜集。然而在数量更多的室外监控系统里,基本上只能看到画面而没有声音。这就是电子监控的一个很大缺陷。那么,引入唇语识别之后,相当于在技术上令画面产生了声音。违法者在镜头前的交流内容将被捕捉,而这也很有可能成为破案的重要线索。英国警方就利用杰西卡的唇语能力破获了一起机场抢劫案。

2. 医疗健康领域。唇语最原始的作用就是帮助听力障碍患者能够和普通人一样正常进行交流,但这个学习成本无疑是巨大的,可能需要几年乃至十几年的时间。甚至如果视力、毅力都不好的话,其只能靠非常麻烦的手语来进行交流。那么,在唇语识别技术的帮助下,听力障碍患者将不必花费这样的学习成本而能直接和正常人一样交流。

3. 实时语音转化更加精准。如今无论是智能法庭上的实时字幕还是国际会议中的同声传译,其基本上都是依靠单纯的语音识别功能来实现。通过唇语识别技术的加成,其将从单纯的“听”变成一边“看”一边“听”,更符合人类接受语言信息的特点。由此,人工智能在实时字幕、同声传译等场景下的应用也将更加成熟。

此外,利用唇语来识别语音,对语音分离问题的解决也将产生积极的影响。之前就有团队通过视频和语音的对照来分离语音,唇语更是可以成为值得关注的一个点。

4. 推进多模态物联网的构建。比如上海地铁引入的语音购票,其就是通过对乘客进行语音和人脸的双重识别来确定到达站和买票人。基于此,将唇语识别技术和语音识别结合起来,将有可能为物联网的构建打开更大的想象空间。在家庭物联网场景中,以智能音箱为代表的入口可以不必单纯依赖语音识别指令,加入唇语读取来提高识别的精确度。毕竟,看着别人说话和闭上眼睛听别人说话,对信息接受者而言是有很大不同的。

但唇语识别也是一项非常需要警惕的技术。毕竟大自然限制了人声的传播距离,就是为了保护个体的私密。一旦唇语识别泛滥,每个人都可能再无秘密可言。说话要捂嘴、回家第一件事是拉窗帘、开车要贴不透光车膜……这样人心惶惶的世界可能是谁也不愿意待的,毕竟英国女王被人读了唇语并公开之后还是很不高兴的。

不管怎样,唇语识别都称得上是一项值得期待的技术。尽管现在还不成熟,尽管未来需要考虑到很多容易产生不利影响的现实问题。但是,当它展现出对人类社会积极的意义的时候,我们也不该去拒绝给它个拥抱。

原文地址:http://blog.51cto.com/naojiti/2135885

时间: 2024-10-10 01:25:50

世界杯没有秘密:有人趴在角落里悄悄读着球员的唇……的相关文章

只见角落里正安静的

http://v.qq.com/page/9/n/v/i04148zzc8v.html http://v.qq.com/page/9/n/v/i04149386rk.html http://v.qq.com/page/9/n/v/i04149386rk.html http://v.qq.com/page/9/n/v/i04149s38rh.html http://v.qq.com/page/9/n/v/i04149sx2fm.html http://v.qq.com/page/9/n/v/i04

无·情

时间,淡化了曾经的记忆:岁月,消磨了最初的痕迹.好多东西,就这样慢慢地被光阴遗弃,在岁月的风尘里了无印记. 人生,被时间改变的同时,也改变了原始的生命轨迹.好多东西,似草非草.似花非花,然而,却欲做花草含香盈绿的事业,最终,只落得不曾绽放.未曾吐绿,却将日渐枯萎.慢慢老去,没有谁会记得,还有他曾来过的痕迹! 无奈的时候,常常喜欢一个人伤感.一个落寞.一个人流泪.一个傻笑.独自咀嚼人生百味,独自躲在角落里悄悄地暗自啜泣,独自承受生活的难以承受之重,独自支撑着精神世界里那个早已失去自我的自己. 曾几

科幻小说《霜与火》 by 雷·布雷德伯里

一半夜里,西穆降生了.他躺在洞穴里冰冷的石块上号哭. 他的血液流经全身,每分钟脉搏达一千跳.他不断地长大. 他的母亲用发烫的手把吃的送进他的嘴里,生命的噩梦开始了.他几乎一生下来就露出警惕的眼光,接着也不知道为什么缘故,眼光里充满了惊吓害怕的神色.吃的东西噎住了他的喉咙,他呛着又号哭起来.他漫无目的地环顾四周. 周围是一重浓雾.雾慢慢散开了.洞穴显现了轮廓.一个男人的高大身影出现在他眼前,这人疯疯癫病的,神情狂乱,十分可怕.一张垂死的脸.由于风吹雨打,显得十分苍老,好象在火中烘干了的土坯.这人蹲

《当迷茫在大学里泛滥成灾》——李开复

------------------------------------ 同学们: 你们过得还好吗? 本来这是一封早就应该写的信,有许多话早应该说,但是我没有去写,没有去说.不是不想,而是我知道你们非常讨厌一个空洞的说教者.所以,我在等待,等待你们自己去体会生活,等待你们来自生活的感觉,等待你们自己对生活态度的反思.这些东西只是一个时间的问题,在一学期已经结束的时候,在你们又开始新学期的时候,我觉得,这封信可以写了,这些话可以说了,我相信你们应该有了和我共同的某种感受,思想应该可以达到一种深度.

装在匣子里的雪(一个流浪作者的自费小册)

<在路上> 当秋雨敲打我孤苦的心怀 当别人的热情化为我的无奈 也许只须伫立在雨中 一切都随风飘散 当心里堆起了天空的阴霾 当我挣脱不了那孤独的悲哀 也许只须轻轻地一呵 一切都重头再来 当我向秋天索要美丽的花环 编织纯净的梦幻 当我向自己渴求大雁的自在 也许只须在内心里寻找 一切都已存在 2005年9月3日 作者 北河浜 (www.561.cn) 2009年1月11日的下午,在莲坂外文书店的一侧,有一个面目清秀的男孩,局促自然的在角落里,地板上是一小叠他自己写的结集自印的有着牛皮纸封面的薄薄的小

每个人都是大时代里的一只蝼蚁:观冯小刚《芳华》有感

先说点题外话.京派导演和海派导演拍起怀旧题材,感觉截然不同.京圈男子第一天团成员赵宝刚.冯小刚.葛优.王朔.姜文几乎一水50后,大院子弟出身. 王朔出生于军委训练总监部大院,姜文的父亲是一位部队干部,葛优是北影厂大院员工亲属,背景最次是胡同长大的冯小刚. 这拨人一旦拍电影缅怀起青春,基本上都是<阳光灿烂的日子里>“激情燃烧的岁月”的调调,主人公多半都少不了起哄.打架.闹事.拍婆子(泡妞)的情节,青春的躁动下,不管多火热的恨,都能变成“四海之内皆兄弟”的火热的爱. 王朔在片中饰演的老大哥 海派或

梦里寻她千百度,Bug却在隔壁老张处

程序员与 Bug 是一对矛盾的存在,程序员既要在解决 Bug 中获得成就感,同时也讨厌 Bug 本身的存在."程序不息,Bug 不止",程序员在与 Bug 的斗争中,也有很多有趣的事情发生,我们整理了一些程序员在调试 Bug 时的种种传奇经历. 众里寻 Bug 千百度,蓦然回首,它却在隔壁老张处: @ 网友条件状语从句 说: 写 JS,自己手机没电了,拿同事老张的安卓机调试,很简单的获取用户微信昵称,结果死活获取不到,一直显示为 null.应该是跨平台问题,因为之前在自己 iPhone

阿勒泰的角落

若无意指认那在伤感中徘徊.欲望中沉浮的生命就是我们本来的生命,那么,总还有别样干净明亮的生命,等着人去认领. 我从没有读过这样的书,书里没有什么逻辑,平平淡淡的叙事,却在我的眼前为我展开了一幅那个年代,那个地方,那个美丽的地方的生动.自然的画卷.没有什么悲悯的话语,却总能带给我感动. 第一次读这本书,是一个很偶然的机会.书荒的季节,图书馆看到阿勒泰直接拿着去借了.后来翻开的时候,读了两页便被其中的文字所吸引.作者李娟所描写的每一件事都能找到画面感.风里来雨里去的边疆牧人.随家庭不断迁徙的动荡生涯

VR&AR引领新技术革命 在下一个&quot;视界&quot;里共创未来

忽如一夜春风来,VR&AR这几个英语字母在2016春天成为全球传播最密集的热词之一. 3月19日,在北京钓鱼台国宾馆举行的中国发展高层论坛2016年会经济峰会上,马云与Facebook创始人.CEO马克·扎克伯格进行的对话刚刚开始,主持人.清华大学经管学院院长钱颖一便单刀直入,向扎克伯格发问:"中国'十三五'规划的主题是创新,你认为下一步技术创新的重点将是什么?" 面带微笑的扎克伯格回答得简捷而明确:AI(人工智能)和VR&AR(虚拟现实和增强现实).他预计在未来的5~