Facebook开源最先进的语音系统wav2letter++

最近,Facebook AI Research(FAIR)宣布了第一个全收敛语音识别工具包wav2letter++。该系统基于完全卷积方法进行语音识别,训练语音识别端到端神经网络的速度是其他框架的两倍以上。他们在博客中详细介绍了这个开源软件。

由于端到端语音识别技术可以容易地扩展到多种语言并且同时保证在各种环境中的识别质量,因此通常认为它是一种有效且稳定的语音识别技术。虽然递归卷积神经网络在处理具有远程依赖性的建模任务(例如语言建模,机器翻译和语音合成)中占主导地位,但是循环架构是端到端语音识别任务的主流。

鉴于此,Facebook人工智能研究所(FAIR)的语音团队上周推出了第一个全卷积语音识别系统。该系统完全由卷积层组成,消除了特征提取步骤和仅训练端到端音频。预测波形中的转录文本,并且通过外部卷积语言模型对文本进行解码。然后Facebook宣布开源wav2letter++  - 这种高性能框架的出现,使端到端语音识别技术能够实现快速迭代,为未来的优化工作和模型调优奠定坚实的基础。

宣布开源wav2letter++,以及机器学习库Flashlight。 Flashlight是一个基于C ++的机器学习库,它使用ArrayFire张量库,并在C ++中实时编译,目的是最大限度地提高CPU和GPU后端的效率和规模。 wave2letter++工具包基于Flashlight基础构建。最重要的是,它也是用C++编写的,ArrayFire是张量库。

本节重点介绍ArrayFire,它可以在CUDA GPU和CPU支持的各种后端上执行,支持多种音频文件格式(如wav,flac等),并支持多种类型的功能,包括原始音频。线性缩放功率谱,对数梅尔谱(MFSC)和MFCC。

原文来自:https://www.linuxidc.com/Linux/2018-12/156060.htm

本文地址:https://www.linuxprobe.com/wav2letter-voice-system.html编辑:roc_guo,审核员:逄增宝

原文地址:https://www.cnblogs.com/elsa-66/p/10331347.html

时间: 2024-11-02 23:39:22

Facebook开源最先进的语音系统wav2letter++的相关文章

facebook开源项目集合

Facebook的开源大手笔 1. 开源Facebook平台代码 Facebook在2008年选择将该平台上的重要部分的代码和应用工具开源.Facebook称,平台已经基本发展成熟,此举可以让开发者更全面地理解整个Facebook平台,更容易地为Facebook开发应用软件,并可以回报社区. 该项目代号为“FBOpen”,其中包含了实现Facebook平台的一些基础设施.功能等,如API架构.FQL分析器.FBML分析器.FBJS,以及许多常用方法和标签的实现,代码基于PHP.这意味着其他开发者

Facebook 开源 AI 所使用的硬件平台 'Big Sur'

Facebook 开源 AI 所使用的硬件平台 'Big Sur' Facebook 今开源其 AI 所使用的硬件平台 'Big Sur'.'Big Sur' 是兼容开放机架的 GPU 加速硬件平台.  人们经常会忽略 Facebook 的人工智能,但是 Facebook 在很多时候都使用了大量的人工智能.Facebook 在AI 上面大有研究,使用机器学习来帮助获取更好的新闻 feed,整理照片和视频内容,甚至是读故事或者玩游戏.现在,Facebook 开源了 AI 所使用的硬件 Big Su

烂泥:小灵呼语音系统迁移

本文首发于烂泥行天下. 公司的语音呼叫系统使用的是小灵呼,现在由于工作需要.需要把该台服务器进行系统的迁移.即由现在的windows server 2003 企业版升级为windows server 2008 64bit. 服务器迁移需要做几步工作: 1.数据库备份 2.小灵呼备份 3.Windows server 2008 R2安装 4.数据库恢复 5.小灵呼安装 6.小灵呼覆盖 7.启动小灵呼 因为目前该服务器使用的数据库是SQL Server 2005,所以备份就很简单了.有关SQL Se

Facebook开源动画库 POP-POPBasicAnimation运用

动画在APP开发过程中还是经常出现,将花几天的时间对Facebook开源动画库 POP进行简单的学习:本文主要针对的是POPBasicAnimation运用:实例源代码已经上传至gitHub,地址:https://github.com/wujunyang/facebookPopTest POP默认支持三种动画 但同时也支持自定义动画 POPBasicAnimation //基本动画 POPSpringAnimation //类似弹簧一般的动画效果 POPDecayAnimation //过阻尼效

NetBSD是个开源到源码的系统

How to get NetBSD NetBSD is an Open Source operating system, and as such it is freely available for download from ftp.NetBSD.org and its mirrors. There is no “official” supplier of NetBSD CD-ROMs but there are various resellers. You can find the most

Facebook开源的JavaScript库:React

React是Facebook开源的JavaScript库,采用声明式范例,可以传递声明代码,最大限度地减少与DOM的交互. React是Facebook开源的JavaScript库,用于构建UI.你可以在React里传递多种类型的参数,如声明代码,帮助你渲染出UI.也可以是静态的HTML DOM元素.也可以传递动态变量.甚至是可交互的应用组件.(文字来自JS开发者微博) 特点: 声明式设计:React采用声明范式,你可以轻松描述你的应用 高效:Reeact通过对DOM的模拟表现,最大限度地较少与

Android Fresco图片处理库用法API英文原文文档2-2(Facebook开源Android图片库)

Android Fresco图片处理库用法API英文原文文档2-2(Facebook开源Android图片库) 这是英文文档的第二部分(2):DRAWEE GUIDE 由于第二部分内容多一些,所以分为2个文章发.方便大家查看. Using the ControllerBuilder SimpleDraweeView has two methods for specifying an image. The easy way is to just callsetImageURI. If you wa

代码内存泄露检测(1) MLeaksFinder (Wechat开源) + FBRetainCycleDetector (FaceBook开源)

每次项目编译完成之后,都被内存搞得头昏脑胀,压力甚大. 利用两周时间,稍微研究了 微信开源的 MLeaksFinder 和 facebook 开源的 FBMemoryProfiler, 这两个开源三方,在编写过程中就可以检测内存泄露,实在是不要太方便-- 希望自己在下一个项目能用的得心应手-- 1.  微信 MLeaksFiner 如果对它,你还是不是很了解 ,可以到查阅这里:  http://wereadteam.github.io/2016/07/20/MLeaksFinder2/ ; 1.

Java开源生鲜电商平台-系统架构与技术选型(源码可下载)

Java开源生鲜电商平台-系统架构与技术选型(源码可下载) 1.  硬件环境 公司服务器 2.   软件环境 2.1  操作系统 Linux CentOS 6.8系列 2.2 反向代理/web服务器 Nginx 2.3 应用服务器 Jdk7+ Tomcat 7 2.4 数据库 Mysql 5.6.x 2.5 消息队列(可选) Rabbitmq/rocketmq 2.6 缓存(可选) Redis 3.x 3.工程构建和管理工具 1.Maven 开发人员已经很熟悉了.此处略 2.Jenkins Je