【VC++技术杂谈004】使用微软TTS语音引擎实现文本朗读

  本文主要介绍如何使用微软TTS语音引擎实现文本朗读,以及生成wav格式的声音文件。

1.语音引擎及语音库的安装

  TTS(Text-To-Speech)是指文本语音的简称,即通过TTS引擎把文本转化为语音输出。

  微软TTS语音引擎提供了Windows Speech SDK开发包供编程者使用。Windows Speech SDK包含语音合成SS引擎和语音识别SR引擎两种,语音合成引擎用于将文字转换成语音输出,语音识别引擎用于识别语音命令。

  Windows Speech SDK可以在微软的官网上免费下载,下载地址为:http://www.microsoft.com/download/en/details.aspx?id=10121

  在该下载界面中,选择下载SpeechSDK51.exe、SpeechSDK51LangPach.exe和sapi.chm 即可。其中,SpeechSDK51.exe是简体中文语音引擎,SpeechSDK51LangPach.exe是中文男生语音库,sapi.chm是SAPI(The Microsoft Speech API)帮助文档。

  下载完成后,先安装语音引擎SpeechSDK51.exe,再安装中文语音库SpeechSDK51LangPach.exe。安装完成后,可以依次点击【开始】/【控制面板】/【语言】打开图1所示的语言属性对话框。在该对话框的“文字-语音转换”标签页下的“语音选择”中能够看到当前系统安装的全部可用的语音库。

图1 语言属性对话框

2.ISpVoice接口的成员函数

  文本朗读的功能主要是通过使用ISpVoice接口的成员函数来实现的。该接口的常用成员函数有如下一些:

(1)HRESULT Speak(LPCWSTR *pwcs, DWORD dwFlags, ULONG *pulStreamNumber);  //朗读文本

(2)HRESULT Pause ( void);                                   //暂停朗读

(3)HRESULT Resume ( void);                                //恢复朗读

(4)HRESULT SetRate( long RateAdjust);                 //设置朗读速度(取值范围:-10到10)

(5)HRESULT GetRate(long *pRateAdjust);              //获取朗读速度

(6)HRESULT SetVoice(ISpObjectToken   *pToken);      //设置使用的语音库

(7)HRESULT GetVoice(ISpObjectToken** ppToken);    //获取语音库

(8)HRESULT SetVolume(USHORT usVolume);          //设置音量(取值范围:0到100)

(9)HRESULT GetVolume(USHORT *pusVolume);      //获取音量

(10)HRESULT SetOutput(IUnknown *pUnkOutput,BOOL fAllowFormatChanges);     //设置输出

(11)HRESULT SpeakStream(IStream *pStream, DWORD dwFlags, ULONG *pulStreamNumber);   //朗读wav数据流

3.编程实例

  了解了以上一些ISpVoice接口的成员函数之后,我们就可以开始编写程序来实现文本朗读,以及生成wav格式声音文件的功能了。

3.1环境配置

  首先,我们需要将Windows Speech SDK开发包的头文件和库文件所在路径添加到编译器中,具体方法如下(这里以VC++6.0为例):

  依次点击【工具】/【选项】,打开选项对话框,选择【目录】标签,在【路径】中加入“C:\Program Files\Microsoft Speech SDK 5.1\Include”和“C:\Program Files\Microsoft Speech SDK 5.1\Lib\i386”。如图2所示。

图2 选项对话框

  其次,还需要在工程中包含TTS语音引擎头文件和库文件,具体如下:

1 #include <sapi.h>                            //包含TTS语音引擎头文件和库文件
2 #include <sphelper.h>
3 #pragma comment(lib, "sapi.lib")

3.2枚举语音库

  枚举语音库需要使用到SpEnumTokens()函数,该函数原型如下:

1 inline HRESULT SpEnumTokens(
2    const WCHAR            *pszCategoryId,
3    const WCHAR            *pszReqAttribs,
4    const WCHAR            *pszOptAttribs,
5    IEnumSpObjectTokens   **ppEnum
6 );

  其中,参数ppEnum是IEnumSpObjectTokens类型的指针,用于存储枚举得到的所有语音Token。IEnumSpObjectTokens的成员函数GetCount()用于得到语音Token的总个数,而成员函数Item()则用于得到具体的某一个语音Token。

  如下的代码示例如何枚举得到的所有语音Token,并将得到的语音库的名字添加到下拉组合框控件中,具体实现如下:

 1 /*
 2  * 函数功能 : 初始化语言包选择组合框控件
 3  * 备    注 :
 4  * 作    者 : 博客园 依旧淡然
 5  */
 6 void CTTSDemoDlg::InitVoicePackageSelComboxCtrl()
 7 {
 8     //初始化COM组件
 9     if(FAILED(::CoInitialize(NULL)))
10     {
11         MessageBox("初始化COM组件失败!", "提示", MB_OK|MB_ICONWARNING);
12         return;
13     }
14
15     //枚举所有语音Token
16     if(SUCCEEDED(SpEnumTokens(SPCAT_VOICES, NULL, NULL, &m_pIEnumSpObjectTokens)))
17     {
18         //得到所有语音Token的个数
19         ULONG ulTokensNumber = 0;
20         m_pIEnumSpObjectTokens->GetCount(&ulTokensNumber);
21
22         //检测该机器是否安装有语音包
23         if(ulTokensNumber == 0)
24         {
25             MessageBox("该机器没有安装语音包!", "提示", MB_OK|MB_ICONWARNING);
26             return;
27         }
28
29         //将语音包的名字加入组合框控件
30         CString strVoicePackageName = _T("");
31         CString strTokenPrefixText = _T("HKEY_LOCAL_MACHINE\\SOFTWARE\\Microsoft\\Speech\\Voices\\Tokens\\");
32         for(ULONG i=0; i<ulTokensNumber; i++)
33         {
34             m_pIEnumSpObjectTokens->Item(i, &m_pISpObjectToken);
35             WCHAR* pChar;
36             m_pISpObjectToken->GetId(&pChar);
37             strVoicePackageName = pChar;
38             strVoicePackageName.Delete(0, strTokenPrefixText.GetLength());
39             m_ComboxVoiceSel.InsertString(i, strVoicePackageName);
40         }
41
42         //设置默认的语音包选择
43         m_ComboxVoiceSel.SetCurSel(0);
44     }
45 }

  通过以上的代码可以看到,首先,我们通过调用CoInitialize()函数完成了对COM组件的初始化。然后,我们调用SpEnumTokens()函数得到了m_pIEnumSpObjectTokens对象,该对象存储了枚举得到的所有语音Token。紧接着,我们调用GetCount()函数得到个数,并调用Item()函数得到具体的每一个语音Token对象m_pISpObjectToken。最后,我们通过调用m_pISpObjectToken对象的GetId()函数便能得到具体的某一个Token对象的ID,其形式为“HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\Voices\Tokens\XXXXX”,去掉其前缀便能得到具体的语音库的名字了。

  该实例运行效果如图3所示,点击“语音包选择”组合框下拉箭头,能够看到与图1中列出的语音包是一致的。

图3 TTS示例运行效果

3.3文本朗读

  点击图3所示界面中的“开始朗读”按钮,能够根据当前所选择的语音包以及设定的语速和音量,对朗读内容编辑框中的内容进行朗读。其具体实现方法如下:

 1 /*
 2  * 函数功能 : 点击"开始朗读"按钮时,该函数被调用
 3  * 备    注 :
 4  * 作    者 : 博客园 依旧淡然
 5  */
 6 void CTTSDemoDlg::OnButtonStartRead()
 7 {
 8     UpdateData(true);
 9
10     //获取ISpVoice接口
11     if(FAILED(CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_INPROC_SERVER, IID_ISpVoice, (void**)&m_pISpVoice)))
12     {
13         MessageBox("获取ISpVoice接口失败!", "提示", MB_OK|MB_ICONWARNING);
14         return;
15     }
16
17     //设置语言
18     m_pIEnumSpObjectTokens->Item(m_ComboxVoiceSel.GetCurSel(), &m_pISpObjectToken);
19     m_pISpVoice->SetVoice(m_pISpObjectToken);
20
21     //设置播放速度
22     m_pISpVoice->SetRate(m_SliderVoiceSpeed.GetPos() - 10);
23
24     //设置音量大小
25     m_pISpVoice->SetVolume(100 - m_SliderVoiceSize.GetPos());
26
27     //检测朗读内容是否为空
28     if(m_EditContent.IsEmpty())
29     {
30         MessageBox("朗读内容不能为空!", "提示", MB_OK|MB_ICONWARNING);
31         return;
32     }
33
34     //开始进行朗读
35     m_pISpVoice->Speak(m_EditContent.AllocSysString(), SPF_ASYNC, NULL);
36 }

  在以上代码中可以看到,使用了ISpVoice接口函数来完成语音库的选择、语速和音量大小的设定,以及通过调用Speak()函数进行文本朗读。

3.4生成WAV格式的声音文件

  要将文本朗读的声音保存为WAV格式的声音文件,主要是通过调用ISpVoice接口函数GetOutputStream()和SetOutput()来实现的。

以下的代码段给出了实现该功能的示例:

 1     //生成WAV文件
 2     CComPtr<ISpStream> cpISpStream;
 3     CComPtr<ISpStreamFormat> cpISpStreamFormat;
 4     CSpStreamFormat spStreamFormat;
 5     m_pISpVoice->GetOutputStream(&cpISpStreamFormat);
 6     spStreamFormat.AssignFormat(cpISpStreamFormat);
 7     HRESULT hResult = SPBindToFile("C:\\Documents and Settings\\Administrator\\桌面\\TEST\\test.wav",
 8         SPFM_CREATE_ALWAYS,
 9         &cpISpStream,
10         &spStreamFormat.FormatId(),
11         spStreamFormat.WaveFormatExPtr());
12     if(SUCCEEDED(hResult))
13     {
14         m_pISpVoice->SetOutput(cpISpStream, TRUE);
15         m_pISpVoice->Speak(m_EditContent.AllocSysString(), SPF_DEFAULT, NULL);
16         MessageBox("生成WAV文件成功!", "提示", MB_OK);
17     }
18     else
19     {
20         MessageBox("生成WAV文件失败!", "提示", MB_OK|MB_ICONWARNING);
21     }
时间: 2024-10-05 09:55:16

【VC++技术杂谈004】使用微软TTS语音引擎实现文本朗读的相关文章

【VC++技术杂谈003】打印技术之打印机状态监控

在上一篇博文中我主要介绍了如何获取以及设置系统的默认打印机,本文将介绍如何对打印机状态进行实时监控,记录下所打印的文档.打印的份数以及打印时间等打印信息. 1.打印机虚脱机技术 在正式介绍如何对打印机状态进行实时监控之前,我们有必要先了解一下打印机虚脱机技术. 独占设备是指在一个程序(作业.用户)的整个运行期间独占设备,直到该程序(作业.用户)完成.系统的独占设备是有限的(比如,一台计算机只能够连接一台打印机),往往不能够满足多进程的要求,会引起大量进程由于等待某些独占设备而阻塞.另一方面,申请

【VC++技术杂谈001】音频技术之调节音量及设置静音

本文主要介绍如何使用混音器Mixer API函数实现系统音量调节,以及设置静音. 1.混音器的作用及结构 1.1混音器的作用 声卡(音频卡)是计算机进行声音处理的适配器,具有三个基本功能: (1)音乐合成发音功能 (2)混音器(Mixer)功能和数字声音效果处理器(DSP)功能 (3)模拟声音信号的输入和输出功能 混音器的作用是将来自音乐合成器.CD-ROM.话筒输入(MIC)等不同来源的声音组合在一起再输出. 1.2混音器的结构 混音器由多个目的单元(Destination)组成,如回放(Pl

【VC++技术杂谈006】截取电脑桌面并将其保存为bmp图片

本文主要介绍如何截取电脑桌面并将其保存为bmp图片. 1. Bmp图像文件组成 Bmp是Windows操作系统中的标准图像文件格式. Bmp图像文件由四部分组成: (1)位图头文件数据结构,包含Bmp图像文件的类型.文件大小等信息. (2)位图信息数据结构,包含Bmp图像的宽.高.压缩类型等信息. (3)颜色表,该部分可选,有些位图需要,有些位图(如24位真彩色位图)不需要. (4)位图数据. 1.1位图头文件数据结构 位图头文件数据结构包含Bmp图像文件的类型.文件大小等信息,占用14个字节.

【VC++技术杂谈005】如何与程控仪器通过GPIB接口进行通信

在工控测试系统中,经常需要使用到各类程控仪器,这些程控仪器通常具有GPIB.LAN.USB等硬件接口,计算机通过这些接口能够与其通信,从而实现自动测量.数据采集.数据分析和数据处理等操作.本文主要介绍如何与程控仪器通过GPIB接口进行通信. 1.GPIB简介 GPIB是通用总线(General Purpose Interface Bus)的简称. GPIB一共由24根线组成,其中8根数据线DB0-DB7,3根握手线(NRFD.DAV.NDAC),5根总线控制线(ATN.SRQ.IFC.REN.E

【VC++技术杂谈007】使用GDI+进行图片格式转换

本文主要介绍如何使用GDI+对图片进行格式转换,可以转换的图片格式为bmp.jpg.png. 1.加载GDI+库 GDI+是GDI图形库的一个增强版本,提供了一系列Visual C++ API.为了使用GDI+,需要在工程中包含“GdiPlus.h”头文件,并加载“gdiplus.lib”库文件. 具体实现方法为,下载GDI+库,将下载得到的Gdiplus文件夹放到工程中.Gdiplus文件夹中应当包含有“GdiPlus.h”等一系列头文件.Gdiplus.lib库文件和Gdiplus.dll动

微软TTS尝试系列之开篇杂谈(仅思路)

第一次写博客,不知道如何下手,思路也乱,就先聊聊怎么进的园子吧,但愿不会浪费大家太多的宝贵时间>_<. 与博客园结缘应该是大三刚开始的时候.当时学校教务处想开发一个教务安排系统,为了省钱就从系里找人,于是我和另外两个同学就接了下来.Money什么的就不说了,接着了解需求.确定方案和分配任务(第一次做一个整体的小项目,比较乱).我们三个从大二开始学习C#,因此开发使用的是C#和ASP.NET.当时对我们来说有两个棘手的问题:一是这个系统需要将录入的内容生成教务处给定格式的Word文档,二是需要根

微软TTS,Neospeech TTS 简单使用

今天搞了下微软的TTS,逛了好多网页.博客,拼拼凑凑搞了点东西吧. 首先添加类库调用,系统自带的system.speech 1 using System.Speech.Synthesis; 然后就能调用方法了 1 SpeechSynthesizer speech = new SpeechSynthesizer(); 2 speech.Rate = int.Parse(dudRate.Text);//语速 3 speech.Speak("Hello TTS"); 4 speech.Dis

WebGIS开发技术杂谈

WebGIS项目的开发主要是B/S架构.最流行的是客户端javascript,服务器端java. 另外还有flex客户端. 客户端主要完成用户交互.向服务器端发送请求并传参以及组织显示服务器端返回的结果等.  服务器端则完成数据库增删查改.业务功能等. 服务器端最底层是数据层,完成对数据的增删查改.常用的数据库有oracle.mysql等.最基本的方法是, java语言使用jdbc,组织相应的sql语句实现数据库操作.   更便捷的方法是使用第三方框架,如hibernate. hibernate

让Java说话-用Java实现语音引擎

让Java说话-用Java实现语音引擎 2005-11-07 10:04:09 分类: Java技术 为应用程序加上语音能力有什么好处呢?粗略地讲,是为了趣味,它适合所有注重趣味的应用,比如游戏.当然,从更严肃的角度来讲,它还涉及到应用的可用性问题.注意,这里我考虑的不仅是可视化界面固有的不足,而且还有这样一些情形:一些时候,让双眼离开当前的工作很不方便,甚至是不合法的.比如,假设有一个带语音功能的浏览器,你就可以在外出散步或开车上班的同时,用听的方式浏览自己喜爱的网站.[@[email pro