百度ai 基于node 语音识别 音频文件类型转换

项目简介

源代码移步:https://github.com/xuess/ai-baidu-node

本项目主要功能为,本地音频语音识别和文件类型转换(利用fluent-ffmpeg)

config.js 里面的应用Id,请替换成自己在百度应用里申请的。出于测试方便,我就不删除了。

1.工程依赖安装,如果想测试音频类型转换,需要安装 ffmpeg

npm i

安装ffmpeg MAC直接 下面命令,其他自行百度吧

brew install ffmpeg

2.运行测试

语音识别
node ai-test.js

音频文件类型转换
node audio-change-ext.js

关于百度语音识别,更多功能请看官方api

源代码:https://github.com/xuess/ai-baidu-node

原文地址:https://www.cnblogs.com/xueshanshan/p/8185064.html

时间: 2024-10-06 13:57:00

百度ai 基于node 语音识别 音频文件类型转换的相关文章

基于百度AI开放平台的人脸识别及语音合成

基于百度AI的人脸识别及语音合成课题 课题需求 (1)人脸识别 在Web界面上传人的照片,后台使用Java技术接收图片,然后对图片进行解码,调用云平台接口识别人脸特征,接收平台返回的人员年龄.性别.颜值等信息,将信息返回到Web界面进行显示. (2)人脸比对 在Web界面上传两张人的照片,后台使用Java技术接收图片,然后对图片进行解码,调用云平台接口比对照片信息,返回相似度. (3)语音识别 在Web页面上传语音文件,判断语音文件格式,如果不是wav格式进行转码处理,然后调用平台接口进行识别,

基于C# 百度AI和科大汛飞语音合成SDK

一.百度语音合成 百度语音合成C# SDK主要是基于Rest API,需要互联网调用HTTP接口,Rest API 仅支持最多512个汉字,合成的格式文件为MP3,没有其它的格式.如果想离线使用需下载SDK,Android 或IOS. 1.安装语音合成 C# SDK C# SDK 现已开源! https://github.com/Baidu-AIP/dotnet-sdk ** 支持平台:.Net Framework 3.5 4.0 4.5, .Net Core 2.0 ** 2.方法一:使用Nu

基于Linux ALSA音频驱动的wav文件解析及播放程序 2012

本设计思路:先打开一个普通wav音频文件,从定义的文件头前面的44个字节中,取出文件头的定义消息,置于一个文件头的结构体中.然后打开alsa音频驱动,从文件头结构体取出采样精度,声道数,采样频率三个重要参数,利用alsa音频驱动的API设置好参数,最后打开wav文件,定位到数据区,把音频数据依次写到音频驱动中去,开始播放,当写入完成后,退出写入的循环. 注意:本设计需要alsa的libasound-dev的库,编译链接时需要连接 —lasound. #include<stdio.h>#incl

利用百度语音API进行语音识别。

由于项目需要,这几天都在试图利用百度语音API进行语音识别.但是识别到的都是“啊,哦”什么的,我就哭了. 这里我只是分享一下这个过程,错误感觉出现在Post语音数据那一块,可能是转换问题吧. API请求地址::http://vop.baidu.com/server_api 语音上传模式:显示发送:将语音数据直接放在 HTTP-BODY 中 其他参数:cuid:用户id,token:密钥 ,lan:语言等要了解更多请查看官方文档:http://developer.baidu.com/wiki/in

基于node.js人脸识别之人脸对比

基于node.js人脸识别之人脸对比 Node.js简介 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境. Node.js 使用了一个事件驱动.非阻塞式 I/O 的模型. Node 是一个让 JavaScript 运行在服务端的开发平台,它让 JavaScript 成为与PHP.Python.Perl.Ruby 等服务端语言平起平坐的脚本语言. 发布于2009年5月,由Ryan Dahl开发,实质是对Chrome V8引擎进行了封装. Node对一些特殊用

最简单的基于FFMPEG的音频编码器(PCM编码为AAC)

本文介绍一个最简单的基于FFMPEG的音频编码器.该编码器实现了PCM音频採样数据编码为AAC的压缩编码数据.编码器代码十分简单,可是每一行代码都非常重要.通过看本编码器的源码.能够了解FFMPEG音频编码的流程. 本程序使用最新版的类库(编译时间为2014.5.6).开发平台为VC2010.全部的配置都已经做好,仅仅须要执行就能够了. 流程(2014.9.29更新) 以下附一张使用FFmpeg编码音频的流程图. 使用该流程.不仅能够编码AAC的音频,并且能够编码MP3,MP2等等各种FFmpe

百度AI开放平台- API实战调用

百度AI开放平台- API实战调用 一.      前言 首先说一下项目需求. 两个用户,分别上传了两段不同的文字,要计算两段文字相似度有多少,匹配数据库中的符合条件的数据,初步估计列出来会有60-100条左右,不会更多,只会更少.最终的需求是:从这些匹配结果中找到相似度较高的那些条目. 自己编写算法来实现是一个很大的工程,涉及到自然语言处理的一些方面,比较复杂.于是上网搜了搜,发现百度开放平台的自然语言处理可以免费调用,而且每天有10W的调用次数,对我的小项目来说正好满足.但是,在往下翻的时候

用 Qt 的 QAudioOutput 类播放 WAV 音频文件

用 Qt 的 QAudioOutput 类播放 WAV 音频文件 最近有一个项目,需要同时控制 4 个声卡播放不同的声音,声音文件很简单就是没有任何压缩的 wav 文件. 如果只是播放 wav 文件,那么 Qt 里简单的 QSound 类是最适合的.但是 QSound 有一个很大的缺陷就是无法选择用哪个声卡.一番研究之后,决定用 QAudioOutput 来播放 WAV 音频文件. 网上也能找到几篇相关的文章,比如: http://blog.csdn.net/qyee16/article/det

基于Node.js + socket.io实现WebSocket的聊天DEMO

原文摘自我的前端博客,欢迎大家来访问 http://hacke2.github.io 简介 最近看Node.js和HTML5,练手了一个简易版的聊天DEMO,娱乐一下 为什么需要socket.io? node.js提供了高效的服务端运行环境,但是由于浏览器端对HTML5的支持不一, 为了兼容所有浏览器,提供卓越的实时的用户体验,并且为程序员提供客户端与服务端一致的编程体验, 于是socket.io诞生. 简答来说socket.io具体以下特点: 1.socket.io设计的目标是支持任何的浏览器