一段讯飞、百度等语音识别API无法识别的语音最终解决办法

  最近在做语音识别、字幕扒词相关的工作,遇到了一段录音(https://download.csdn.net/download/u014220286/12169183,各位有兴趣的可以下载下来试试),音质什么的和其他处理过的无二异,也是普通话,照常理说应该能识别出来,可为了类似这样的语音丢了工作机会(前一次没重视人工速录交了,后来又遇到了,琢磨了好长时间解决了,过了交稿时间,产生信任危机了,没有机会合作了。)记录下这次的解决过程,希望给你有需要的人帮助。

  首先用ffmpeg查看该音频,发现是32是浮点数,立体声,转成16K单声道的,没有解决,后来想到是不是因为噪声的缘故,做了噪声消除后效果依旧;甚至怀疑到了和声音内容有关(两次音频都是和法律相关的),以前也做过庭审的例子,拿出来用ffmpeg查看音频信息,摸索半天发现可能是声道的问题。

  找到了问题可能的点,于是在强大的音频处理软件audacity中进行了尝试,具体步骤如下:

  在audacity中导入音频,在左侧面板中下拉三角的菜单中选择“分离立体声”,分离好后“禁用”一个声道,然后在菜单中选择“导出”,导出音频,导出的音频就可以识别了。

  虽然没有尝试用程序解决,但有了方法,又不太耗时,总算解决了一个难点,下次不至于为此类问题失去工作机会了。

  解决前讯飞的识别结果:

  处理后的识别结果:

原文地址:https://www.cnblogs.com/Hard/p/audio_transcript_channel.html

时间: 2024-10-11 12:35:28

一段讯飞、百度等语音识别API无法识别的语音最终解决办法的相关文章

讯飞阅读与声音复刻:让语音黑科技留住你的声音

提要:在人工智能和移动互联网飞速发展的今天,产品语音同质化越来越严重,如何凸显出产品中的语音特色.让产品的语音有温度变得尤为重要.为此,科大讯飞旗下产品讯飞阅读推出了声音复刻功能,此项功能可基于深度学习的人工智能合成技术为个人定制个性化音库. 在人工智能和移动互联网飞速发展的今天,产品语音同质化越来越严重,如何凸显出产品中的语音特色.让产品的语音有温度变得尤为重要.为此,科大讯飞旗下产品讯飞阅读推出了声音复刻功能,此项功能可基于深度学习的人工智能合成技术为个人定制个性化音库. 讯飞阅读的声音复刻

讯飞语音云、讯飞输入法四周年生日Party圆满举办

2014年10月28日下午,以"语你同行 音你精彩"为主题的讯飞语音云.讯飞输入法四周年生日会在北京3W咖啡成功举办.本场活动吸引了开发者.输入法粉丝.媒体朋友以及语音云合作伙伴等各界友人参加,活动现场座无虚席,气氛热烈. 四年前的今天,全球首个面向开发者的智能语音交互平台"讯飞语音云"正式发布,讯飞输入法也横空出世.经过四年时间的洗礼,讯飞语音云升级3.0,讯飞输入法也迅速成长积累1.7亿用户,成为移动互联网的拳头产品. 本场活动不仅准备抽奖互动和蛋糕盛宴,还带来

Android 通过调用系统接口使用如 谷歌语音、百度语音、讯飞语音等语音识别对话框的方法

现在app的开发进程会集成一些语音识别功能,而一般开发者是不具备自己开发一套语音识别引擎的,因此大多数情况是选择一个已经成熟的语音识别引擎SDK集成到自己的app中. 通常情况下,这种集成分两种,一种是直接调用SDK为开发者设计好的弹出框,开发者不需要开发识别交互界面:还有一种是开发者只利用SDK提供的语音识别服务,自己开发一个属于自己的交互设计. 本文介绍最简单直接调起弹出框的方法. 首先,测试机需要安装如谷歌语音.百度语音.讯飞语音等产品的语音软件,这时可以在系统设置界面的语言与输入处找到相

讯飞语音识别

使用讯飞开放平台实现语音识别合成 发 社会和产品的发展总是向着便利和智能的方法发展,对于手机的App来说也是如此.所以,现在的App都在缩减流程,优化使用体验,为的就是让用户用起来更加便利,提高App的入手度和用户粘性.那么另一方面的智能呢? 一个比较简单智能的实现方法就是在输入的地方加上语音识别,在输出显示的时候加上语音合成,直接进行语音播报,那么是不是对于司机等来说就是一个智能的体现呢? 现在做语音识别有一些不错的开放平台可以给我们直接提供使用,一家是科大讯飞开放平台,一家是百度语音开放平台

ios语音识别(讯飞)

语音识别系统 为了方便人们的生活,许多的方面都可以通过语音指令来代替手动输入来执行想要的指令.现在做语音识别的有一些不错的开放平台供我们使用,一家是科大讯飞平台,一家是百度语音平台.我个人比较偏爱科大讯飞,因为科大讯飞的优势在于大 段大段的文字识别上,准确率较高.这正好能符合我输入银行卡号准确无误的需求.这篇博客也主要讲的是讯飞语音SDK的使用.下面我们来详细看一下科大讯飞. 1.科大讯飞开放平台 2.科大讯飞iOS - API开放平台 科大讯飞的操作步骤 1.注册ID 正常的注册步骤,一步一步

一百元的智能家居——Asp.Net Mvc Api+讯飞语音+Android+Arduino

大半夜的,先说些废话提提神 如今智能家居已经不再停留在概念阶段,高大上的科技公司都已经推出了自己的部分或全套的智能家居解决方案,不过就目前的现状而言,大多还停留在展厅阶段,还没有广泛的推广起来,有人说最大的问题是标准不统一云云,但在我看来,最大的问题在于两个方面,一个是价格,一个是操作的简便性,技术上的问题并不是阻碍智能家居推广的核心因素. 再来说说最近很火很惹人爱的微软小娜,Cortana.本人作为微软的死忠,作为一名靠.Net混饭的屌丝程序男,自然是有一部撸妹的,并且在小娜推送当天更新了手机

iOS-Senior23-科大讯飞语音识别1

科大讯飞语音识别 随着当今社会的高速发展,我们所使用的产品也向着遍历和智能的方面发展着,当然了手机端的App也不例外.现在的App都在缩减用户操作的流程,优化用户的体验,为了更加便利用户.提高用户的DAU(日活),增加用户的粘性一般我们都会想出比较新颖的招式. 如果现在有这样一个需求:用户需求:用户需要绑定银行卡输入银行卡号,手动输入增加用户的操作度,所以用户可以通过语音读取银行卡号码,是不是既方便又只能,现在做语音识别的有一些不错的开放平台供我们使用,一家是科大讯飞平台,一家是百度语音平台.我

基于讯飞语音API应用开发之——离线词典构建

最近实习在做一个跟语音相关的项目,就在度娘上搜索了很多关于语音的API,顺藤摸瓜找到了科大讯飞,虽然度娘自家也有语音识别.语义理解这块,但感觉应该不是很好用,毕竟之前用过百度地图的API,有问题也找不到人帮忙解决(地图开发者群里都是潜水的)...不得不说,科大讯飞在语音这块尤其是中文识别方面做的真心不错,而且Android还支持离线识别. 讯飞官方给的文档内容很详细,在这我就不赘述了.在开发中,由于一些原因需要用到离线识别这块,就学习了一下.讯飞离线识别只支持Android系统,使用时需要安装讯

百度语音识别API初探

近期想做个东西把大段对话转成文字.用语音输入法太慢,所以想到看有没有现成的API,网上一搜,基本就是百度和讯飞. 这里先看百度的 笔者使用的是Java版本号的 下载地址:http://bos.nj.bpc.baidu.com/v1/audio/Baidu_Voice_RestApi_SampleCode.zip 解压之后里面有个51.2KB的PCM格式的音频文件,笔者尝试用各种播放器发现非常少有能打开的.最后找到一种方法分享一下. 一.播放例子音频 下载安装Adobe Audition 3.0当