用脑电图也能做语音识别?新研究造福语音障碍者

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

大数据文摘专栏作品

作者:Christopher Dossman

编译:conrad、云舟

01本周热门学术研究

01工业界版权检测系统易受攻击?

版权检测系统在网络界面中起着至关重要的作用,尤其是在数字资产不断增长的当下,它们的安全性显得极其重要。然而,目前人们在提高它们的安全性和鲁棒性方面并没有做太多工作。

为了应对这一挑战,研究人员最近对版权检测系统的脆弱性进行了研究,并展示了这些系统如何容易受到敌对攻击。为了展现这种无防御的天性,他们利用原始神经网络建立了一种简单的歌曲识别方法,并利用常用的梯度法对其进行攻击。

令人震惊的是,混音攻击竟然能够成功地欺骗包括AudioTag和YouTube在内的业界最佳系统。当AudioTag版权检测器未能检测到为其构建的对抗性示例时,他们能够使用youtube的内容ID系统进行规避并未被检测到。

本文提高了对版权检测系统面临威胁的认识,并强调了提高此类系统安全的重要性。随着人工智能社区对鲁棒的人工智能和机器学习系统的积极研究和深入设计,考虑可能对这些系统构成潜在危险的威胁是至关重要的。对于初学者,可以使用对抗性训练和其他可用的防御手段来帮助实现这一目标。

原文:

https://arxiv.org/abs/1906.07153v1

02用脑电图做语音识别——语言障碍人士的福音

研究人员首次仅使用脑电图特征将连续语音识别应用到汉语和多语言词汇。他们展示了基于深度学习的自动语音识别(ASR),使用脑电图信号对有限的英语词汇(4个单词到5个元音)进行识别。他们还展示了对更多的英语词汇使用连接主义时间分类(CTC)模型和attention模型,来完成基于脑电图的连续噪声的语音识别。

在他们的研究中,他们观察到,与CTC模型相比,当使用较小的脑电图特征数据集训练时,attention模型的错误率更高。因此,他们在研究中只使用了CTC模型。他们还拓展了他们的工作,为一个由更多中文词汇和中英词汇等多语言词汇的列表应用了CTC模型。他们在工作中使用了非常嘈杂的语音数据,并且在使用脑电图特征的较小语料库中显示出较低的字符错误率(CER)。

本工作证明了利用脑电图特征进行鲁棒多语言语音识别的可能性,可以帮助有说话障碍的人实现语音激活技术。

它可以帮助自动语音识别(ASR)系统,例如飞行器直接语音输入,在背景噪声条件下使用简单的语音指令克服性能损失等,从而使他们能够在非常嘈杂的环境中如机场,商场等环境下执行高精度语音识别。

另外,这一研究提出的语音脑电图数据库还可以扩展,以促进该领域的研究。

原文:

https://arxiv.org/abs/1906.08045

03面向更有识别力的深层神经网络嵌入,用于识别说话人

受深度神经网络在语音识别中的成功应用启发,研究人员对DNN在说话人建模中的应用进行了研究,发现与传统方法相比,判别性深度神经网络(DNN)具有更好的说话人嵌入性能。

目前大多数的深度说话人嵌入框架都采用softmax损失函数作为优化准则,这与较先进的基于边缘的分类损失函数相比存在一定的不足。研究人员使用了三种不同的基于边际损失的方法来解决这一挑战,这三种方法不仅将不同的类别分开,而且要求类别之间有固定的边际。

结果表明,通过训练一个DNN语音分类器并从中提取嵌入信息,可以直接建立一个高性能的说话人识别系统。

在使用两个公共文本独立的任务(包括VoxCeleb1和Speaker in The Wild,即SITW)来评估后,这一方法展现了先进的性能:与使用softmax交叉熵损失的基线相比,新方法降低了两个任务25-30%的相等误差率(EER),取得了在VoxCeleb1测试集熵2.238%的EER和SITW核心测试集上2.761%的EER。

原文:

https://arxiv.org/abs/1906.07317

04从深度预训练语言模型,转向端到端语音合成的转移学习

这一研究利用BERT辅助Tacotron-2的训练。Tacotron-2是一种由编码器和基于注意力的解码器组成的最先进的文本语音转换(TTS)方法。本研究的目的是利用深度预训练的学习管理系统所包含的丰富的文本知识来辅助TTS训练。

结合BERT将输入文本序列转换成文本表示,这些文本表示与Tacotron-2编码器提取的文本表示并行,并将两者提供给Tacotron-2的解码器。BERT是一个基于转换器的模型,以无监督的方式训练大量文本。从大量未标记的文本数据中学习到的BERT表示法显示,它包含了非常丰富的输入文本的语义和句法信息,并且有可能被TTS系统利用,从而弥补高质量数据的不足。

从研究结果来看,将BERT加入到Tacotron-2框架中并不能提高合成音频的质量。但该方法在训练过程中收敛速度较快等其他方面的优势也能对tacotron-2模型进行改进。

该模型非常善于判断何时停止解码,因此合成音频的杂音量较小,从而消除了对组件设计领域广泛专业知识的需求。

原文:

https://arxiv.org/abs/1906.07307

05开源转换器实现最优翻译结果

谷歌的研究人员进行了一项大规模的翻译任务,并发现了一个进化转换器(ET:Evolved Transformer)。传统的转换器依赖于自身的注意力,而这一转换器是一个混合体,利用了自身的注意力和广泛卷积的优势。

与大多数序列到序列的(seq2seq)神经网络结构一样,该模型有一个编码器,将输入序列编码为嵌入,以及一个解码器,使用这些嵌入构造输出序列。对于翻译任务,输入序列是要翻译的句子,输出序列是翻译结果。

新的转换器实现了显著的性能,并证明了参数的有效使用。它在WMT 14 En-De上达到了BLEU分数 29.8和SacreBLEU分数29.2的测试结果。

原文:

https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

02其他爆款论文

轻量级的高级接口,从小白到专家都能用的智能机器人学习资源:

https://arxiv.org/abs/1906.08236

谷歌人工智能提出了一种新的策略外评价方法——策略外分类法(OPC):

http://ai.googleblog.com/2019/06/off-policy-classification-new.html

目标检测方法的两条腿:丰富的目标检测方法和精准的实例分割方法:

https://arxiv.org/abs/1906.07155v1

脑电信号可以提高说话人验证系统的鲁棒性:

https://arxiv.org/abs/1906.08044

进行有监督和无监督反传播适应的新模式:

https://arxiv.org/abs/1906.07414

星标我,每天多一点智慧

原文地址:https://www.cnblogs.com/shuzhiwuyu/p/11083535.html

时间: 2024-10-10 20:13:19

用脑电图也能做语音识别?新研究造福语音障碍者的相关文章

做大数据分析研究的常用软件工具与其应用场景

做大数据分析研究的常用软件工具与其应用场景 实际进行大数据研究过程中,需要根据实际情况灵活选择最合适的工具(甚至多种工具组合使用),才能更好的完成研究探索. 如今,大数据日益成为研究行业的重要研究目标.面对其高数据量.多维度与异构化的特点,以及分析方法思路的扩展,传统统计工具已经难以应对. 工欲善其事,必先利其器.众多新的软件分析工具作为深入大数据洞察研究的重要助力, 也成为数据科学家所必须掌握的知识技能. 然而,现实情况的复杂性决定了并不存在解决一切问题的终极工具.实际进行大数据研究过程中,需

NCWeather还有不少优化的余地,但是也该做个新东西了

度假半个月,复活. 鼠绘了精美小图标一只,风格和以前的保持了统一. 加了个网络状况的检查,不过不怎么完善,今晚困了,当然清醒了也不一定会继续完善. 因为画了图标,所以发个APK. 代码依然见Github. NCWeather还有不少优化的余地,但是也该做个新东西了,布布扣,bubuko.com

C# 语音识别(文字to语音、语音to文字)

C# 语音识别(文字to语音.语音to文字) 最近打算研究一下语音识别,但是发现网上很少有C#的完整代码,就把自己的学习心得放上来,和大家分享一下. 下载API: 1)SpeechSDK51.exe                   (67.0 MB) 2)SpeechSDK51LangPack.exe     (81.0 MB) API可以不下载,但是如果你的VS是英文版,但是想使用中文的语音,那你就需要下载API,按顺序安装好. (PS:我的VS是英文的,不能说中文,为了这个我纠结了一上午

做科研新得【转】

http://blog.sciencenet.cn/home.php?mod=space&uid=212252&do=blog&view=me [转载]转ICCV大神YuanDong Tian--业余做研究的心得(外二篇) 已有 950 次阅读 2014-3-24 15:14 |个人分类:科研点滴|系统分类:论文交流 除了要专心之外,做研究,有两个坎要过,一个平衡要把握. 其一,读别人文章是坎.读文章初时觉得文献浩如烟海不可胜计,每年又新增几百上千的文章,每篇艰深莫测,看也看不完,

Neuromation新研究:利用卷积神经网络进行儿童骨龄评估

近日,Neuromation 团队在 Medium 上撰文介绍其最新研究成果:利用卷积神经网络(CNN)评估儿童骨龄,这一自动骨龄评估系统可以得到与放射科专家相似或更好的结果.该团队评估了手骨不同区域,发现仅对掌骨和近端指骨进行评估,得到的结果与对整个手骨进行评估的结果相差无几.为了克服放射图像的质量和多样性问题,该团队引入了严格的清理和标准化过程,以增强模型的鲁棒性和准确率,提升骨龄评估的准确率.提高结果的可复现性以及临床医生的效率. Alexander 的论文<Pediatric Bone

最近做的新项目技术点

一.springmvc 1.springmvc通过注解@ResponseBody返回json,需要额外添加jackson-core-asl.jar包 2.<mvc:annotation-driven />是添加默认的返回值转换类,可自定义 3.通过注解返回页面 二.CXF 1.CXF的ca认证,在spring的配置,公钥加密,私钥签名,服务端:加密设置别名时用useReqSigCert,表示使用请求时对应的公钥 三.hibernate 1.atomikos事务管理 2.c3p0的配置,连接超时

英媒看中国高考:分数决定赚钱潜力 影响婚姻前景(全文)

英媒看中国高考:分数决定赚钱潜力 影响婚姻前景(全文) 参考消息网10月15日报道 英国<卫报>10月12日刊登长篇文章介绍中国一年一度的高考,包括考前的准备.两天考试期间的紧张和考后的焦急等待. 英国广播公司网站10月12日引述<卫报>文章称,分数的高低决定人生机会和赚钱潜力.那个分数是每个中国孩子一生中最重要的数字. <卫报>称,虽然大学入学考试在每个国家都要竞争,但在中国,最顶尖的大学录取的是五万分之一的学生.竞争白领工作非常激烈,大学毕业生的失业率大约为16%,

人工智能的发展现状与未来展望

作者:张达衢  摘自中国论文网 原文地址:http://www.xzbu.com/4/view-8299582.htm [关键词]人工智能:发展现状:未来展望  [中图分类号]TP18 [文献标志码]A [文章编号]1673-1069(2017)04-0107-02 1 引言  2016年年初,韩国围棋国手李在石与围棋程序Alpha Go对弈中首战失利,再一次将人工智能拉入了公众的视野,使其成为2016年度话题度最高的科技之一.不可否认,近些年来人工智能发展迅速,很多人工智能产品已经开始进入人们

新站如何做SEO及注意事项

最近公司做了新网站,完成后运营优化的工作就落在我身上了,由于之前也没有.就去网上百度了一下,上了各种论坛查阅大牛的博客.自己也总结了一些要点,在这里和大家分享一下.新网站大家可以点击查看牛羊养殖在线. 新站做SEO的要求: 1.SEO SEO的定义就是搜苏引擎优化,通过对网站的关键词优化,标题的优化,描述的优化来完成对整个网站的优化,使你的网站更加利于排名,对搜苏引擎更友好. 2.标题 文章要求原创,新颖,文章标题多于9个字小于22个字.标题中可以加入括号,其它的标点符号尽量不要带.题目选择要有