世界杯已经过半,残酷的淘汰赛也已经马上就要进入四分之一决赛。相比场内球员们的激情和球迷的热情,场外关于各球队的报道也是让人目不暇接。其中最令人好奇的,大概要算教练和球员们之间的一些“耳鬓厮磨”了。
比如西班牙和俄罗斯的点球大战。当西班牙主帅耶罗决定让科克踢点球的时候,科斯塔表达了不同意见,并多次向耶罗、科克和队长拉莫斯进行交流。然而这并没有什么用,科克还是踢了第三个点球,并成功罚丢,导致志夺冠的西班牙就此结束了在本届世界杯的征程。
类似的情况还出现在小组赛阿根廷1:1暂平尼日利亚的时候,桑保利去询问梅西该不该上阿圭罗,只见梅西点了点头,随后阿圭罗被换上。
问题是,好像我们看球除了现场球迷的呼喊声之外,听到最多的大概要算是踢足球的声音了,教练球员之间的交流我们也是只见其人不闻其声。那些电视台是怎么知道他们说了什么话的?难道是后台进行了采访?
非也。实际上,要弄懂他们在说什么其实很简单,就是对口型。正规说法就是:读唇语。
听起来是不是很高端?
从“手工时代”到人工智能
唇语之用,最早在于帮助听力障碍人群获取语言信息,让其过上正常人的生活。在这个意义上,其作用于手语相当。但与手语不同的是,读唇语是一件难度很高、即便费尽心思去练习也不一定学有所成的事情。
学唇语首先得视力好,俗称眼尖。不要求几里地之外明察秋毫,至少能在几十米外看见嘴唇动作吧。传说中英国职业唇语破解女王杰西卡就说自己能在四十米开外的地方通过读唇来破解别人说话的内容。所以,不是歧视大家,那些五米之外人畜不分的近视群体这辈子还是不要再想着读唇语这件事了……
正是由于掌握的人数少,现实中见得不多,读唇语就变成了一件神秘而高大上的事情。在这个时代,我们姑且可以把它成为唇语的“手工时代”。
而在近两年,长期处于靠个人努力来维持现状的唇语突然就火了起来,似乎在一夜之间变成了一件唾手可得的事情。而造成这一现象的根本原因,就是人工智能视觉识别技术的发展,或许我们可以把它称作唇语识别的人工智能时代。比如《机器姬》当中机器人夏娃读取内森和迦乐的嘴部动作来识别内容。那么,人工智能识别唇语在现实中又有哪些表现呢?
从技术原理上来说,读唇语这件事正适合人工智能来做。通过对说话人嘴部说话的连续动作的捕捉,然后将其与单词发音进行匹配,最终经过不断地修正,得出动作、发音、语义三者最协调的句子,从而实现唇语的破解。
比如2016年Deepmind联合牛津大学推出的人工智能唇语识别系统。通过对该系统进行超过5000小时、11800条新闻视频的训练学习,其在最终的视频测试中达到了46.8%的识别正确率,而人类则仅仅为12.4%。这个差距可以说是相当明显了。
而在国内也有公司开发了相关的唇语识别AI。去年乌镇互联网大会上,搜狗也显示了自己在唇语识别上的成果,其采用的则是新闻视频、电视节目、普通人说话等综合场景来训练的方法。当然,这项技术的开发仍然处于起步阶段,想要完成想象中的唇语通吃,大概仍然需要时间。
可以确定的是,在视觉识别技术不断提升的情况下,唇语识别即将由一项传说中的“秘术”变成人人都可装备的日常工具。但把读唇语变成一种通用的语言辅助工具,真的是很容易的一件事的吗?
读唇语对人不易,AI亦如是
我们知道,人工智能的深度学习是建立在大量相关材料的基础上的,比如Deepmind训练一个唇语识别的人工智能,总时长达到了5000个小时,而识别成功率也还不到50%。然而对现阶段的处于识别来说,这已经是一个非常好的数据了,毕竟顶尖的人类唇语识别专家也才有百分之十几的成功率。那么,既然唇语识别这么难,人工智能要想拿下它,又应该需要注意哪些问题?
第一,要解决口型不一致的问题。口型不一致的问题体现在两个方面。
一方面,由于音准的不同,不是所有的人发出同样的音节的时候都是会产生同样的动作。这点动作从人类的视角来看可能难以发现,但从擅长识别微表情的人工智能的时间来说,些许的动作差别可能就会造成误判。比如一个傻子口齿不清,人们听起来都费劲,就更不要说读唇识别了。
另一方面,同一种语言由于地域的不同,同一个字也可能存在不同的发音方式。比如“六”,在普通话的读音中,它读作“liù”;而在南方方言里,很多情况下它被读作“lù”,甚至在其他地区还有读成“luò”“lo”等。那么,在识别方言这一块儿,人工智能遇到的麻烦也是不小。
第二,人工智能唇语识别的语气问题。既然是识别说话内容,就不可避免地要涉及说话者的语气。同一个词语、同一句话,由于说话者语气的不同,其也可能会造成不同的语义。比如“你弄啥类”,加个问号表示疑问,加个叹号就代表的是愤怒。所以,单纯识别说话者语言内容将会限制唇语识别的功能,如何将说话者的表情、动作、场景等一系列和表达有关的因素统一到唇语识别当中去,也是一个需要考虑的问题。
第三,在很多情况下我们并不需要人形机器人一样,我们也不一定非得让唇语识别变成一个万事通。在对其进行训练的时候,我们可以根据使用的具体场景来进行专门的素材搜集。比如地铁站自动卖票,就只需要针对站点名称的口型作重点训练。这样就可以避免特定场景下由无效工作而带来的繁琐。
更重要的是,语言是一个非常庞大的知识库,如果想要精确地实现对各种情况下的唇语的识别,海量的语音、动作训练将是一个耗时巨甚的工作量。
唇语虽小,潜力却大
毫无疑问,当唇语识别技术成熟,其应用前景是非常乐观的,比如以下几个方面。
1. 安防领域。家庭摄像头功能、场景都比较单一,一般都会有麦克风进行声音搜集。然而在数量更多的室外监控系统里,基本上只能看到画面而没有声音。这就是电子监控的一个很大缺陷。那么,引入唇语识别之后,相当于在技术上令画面产生了声音。违法者在镜头前的交流内容将被捕捉,而这也很有可能成为破案的重要线索。英国警方就利用杰西卡的唇语能力破获了一起机场抢劫案。
2. 医疗健康领域。唇语最原始的作用就是帮助听力障碍患者能够和普通人一样正常进行交流,但这个学习成本无疑是巨大的,可能需要几年乃至十几年的时间。甚至如果视力、毅力都不好的话,其只能靠非常麻烦的手语来进行交流。那么,在唇语识别技术的帮助下,听力障碍患者将不必花费这样的学习成本而能直接和正常人一样交流。
3. 实时语音转化更加精准。如今无论是智能法庭上的实时字幕还是国际会议中的同声传译,其基本上都是依靠单纯的语音识别功能来实现。通过唇语识别技术的加成,其将从单纯的“听”变成一边“看”一边“听”,更符合人类接受语言信息的特点。由此,人工智能在实时字幕、同声传译等场景下的应用也将更加成熟。
此外,利用唇语来识别语音,对语音分离问题的解决也将产生积极的影响。之前就有团队通过视频和语音的对照来分离语音,唇语更是可以成为值得关注的一个点。
4. 推进多模态物联网的构建。比如上海地铁引入的语音购票,其就是通过对乘客进行语音和人脸的双重识别来确定到达站和买票人。基于此,将唇语识别技术和语音识别结合起来,将有可能为物联网的构建打开更大的想象空间。在家庭物联网场景中,以智能音箱为代表的入口可以不必单纯依赖语音识别指令,加入唇语读取来提高识别的精确度。毕竟,看着别人说话和闭上眼睛听别人说话,对信息接受者而言是有很大不同的。
但唇语识别也是一项非常需要警惕的技术。毕竟大自然限制了人声的传播距离,就是为了保护个体的私密。一旦唇语识别泛滥,每个人都可能再无秘密可言。说话要捂嘴、回家第一件事是拉窗帘、开车要贴不透光车膜……这样人心惶惶的世界可能是谁也不愿意待的,毕竟英国女王被人读了唇语并公开之后还是很不高兴的。
不管怎样,唇语识别都称得上是一项值得期待的技术。尽管现在还不成熟,尽管未来需要考虑到很多容易产生不利影响的现实问题。但是,当它展现出对人类社会积极的意义的时候,我们也不该去拒绝给它个拥抱。
原文地址:http://blog.51cto.com/naojiti/2135885