说话人自适应技术

说话人自适应技术 (Speaker Adaptation ,SA)；非特定人 (Speaker Independent ,SI)；特定人 (Speaker Dependent ,SD) 『SA+SI』

自适应凡是分类：批处理式、在线式、立即式 | 监督无监督

自适应经典算法：基于最大后验概率 (Maximum a posteriori ,MAP) 的算法、基于变换的算法『Tip : 先学习SI语音识别技术』

基于最大后验概率 (Maximum a posteriori ,MAP)算法

基本MAP算法

『初次见解：类似极大似然，就是找出概率最大的匹配(注意：匹配项必需已给定)』

『第二次见解：贝叶斯学习理论，从假设范围中选取最佳假设』

其中 χ为训练样本 ,θ_i 为第 i 个语音模型的参数 , 为模型参数的最大后验概率估计值。

基于线性预测的 MAP 算法

基本假设是：不同语音模型间的关系可以用线性函数表示 ,其过程为 : 利用 SI系统的训练语音库统计出不同语音的模型参数间的线性关系 ,在自适应时对于未出现的语音的模型 ,用已出现的语音的自适应结果以及线性关系预测其自适应结果:

其中 ,λ为语音模型参数 , i 为训练语音中未出现的某语音模型编号 , j 为出现的语音模型编号 ,α_ij为事先训练好的预测参数

矢量场平滑 (Vector Field Smoothing ,VFS) 算法

基本假设是：不同语音模型自适应后的变化量是一个连续函数 ,因此我们可以用已出现语音模型自适应后的变化量预测相邻的未出现语音的模型的变化量 ,从而获得未出现语音模型的自适应结果:

其中{λ_j, j = 1 ,2 , …, M} 为已出现语音的模型参数 ,λ_i为未出现语音的模型参数. 这里α_ij是训练好的预测参数

马尔科夫随机场 (Markov Random Field ,MRF) 算法『待查阅』

基本假设是：码本的均值可以用二维随机场中的点来表示“相近”的码本相互连通 , 两两连通的点的集合构成了一个类 , 类的先验概率用 Gibbs 分布来描述. 自适应过程按类进行 ,因此可以对未出现过的语音做自适应.

基于变换的算法

基本假设是：相近语音的 SI 系统语音空间与被适应人语音空间的变换关系也是相近的 ,因此可以利用训练语音中出现过的语音统计出这一变换关系 ,对未出现的语音的模型用该变换实现从 SI 系统到被适应人语音空间的映射 ,从而完成自适应过程。

语音空间根据一定测度 (如欧氏距离 ,似然度等) 被划分为 R 类 ,各类的变换为 T_r (·) ,分别对应的训练语音集为 X_r , r = 1 ,2 , …, R ,模型参数为 λ_r , r = 1 ,2 ,…, R ,则最优的自适应变换满足 :

自适应后的参数λ_r , r = 1 ,2 , …, R 满足 :

最大似然线性回归 (Maximum Likelihood Linear Regression ,MLLR) 算法

该算法采用的变换形式是仿射变换 ,即：

y = Ax + b

x 为自适应前的参数矢量 ; y 为自适应后的参数矢量 ;A、 b 分别为根据自适应训练语音 ,用最大似然准则估计出的变换参数.

随机匹配 (Stochastic Match ,SM) 算法

采用的变换形式是平移变换 :

y = x + b

式中各项的意义与 MLLR 算法中相同.

非线性变换算法

来自为知笔记(Wiz)

时间： 2024-10-25 12:53:33

说话人自适应技术的相关文章

【自适应技术】相关概念

自适应技术是一种决定性的面向未来的技术,它能在产品的经济性.安全性和舒适性获得最优化的同时,减少乃至避免震荡以及不希望的畸变和噪音.应用自适应技术的产品和方法能够获得决定性的竞争优势. 概念: 自适应技术的概念描述了一类新的“智能组件/智能结构”,这些智能组件在工作条件改变的时候具有一个主动适应和目标优化调节的机械特性.这种主动的组件满足了改善系统机械特性.效率.性能及其他特性的要求.这里,除了在经济的前提下选用材料.扩展功能和提高舒适性以外,还包括安全方面的问题,如碰撞特性的优化或是损坏的监控

【转】人，技术与流程

我先做一下自我介绍,我是 2007 年加入的 Google,在 Moutain View 总部任 Google SRE,今年年初回国加入 Coding. 在 Google 我参与了两个 Project,第一个就是 Youtube,其中包括 Video transcoding, streaming 等,Google 的量很大,每个月会有 1PB 级别的存储量,存储,转码后,我们还做 Gobal CDN ,最大的时候峰值达到 10 TB,我们在全球 10 万个节点,每台机器都是 24 核跑满状态.然

人，技术与流程（转）

人，技术与流程

Coding 孙宇聪:<人,技术与流程> https://blog.coding.net/blog/human-tech-procedure 我先做一下自我介绍,我是 07 年加入的 Google,在 Moutain View 总部任Google SRE,今年年初回国加入 Coding.在 Google 我参与了两个 Project, 第一个就是 Youtube, 其中包括 Video transcoding, streaming 等,Google 的量很大,每个月会有 1PB 级别的存储量,

Coding CTO 孙宇聪：《人，技术与流程》

我先做一下自我介绍,我是 07 年加入的 Google,在 Moutain View 总部任Google SRE,今年年初回国加入 Coding . 在 Google 我参与了两个 Project, 第一个就是 Youtube, 其中包括 Video transcoding, streaming 等,Google 的量很大,每个月会有 1PB 级别的存储量,存储,转码后,我们还做 Golbal CDN ,最大的时候峰值达到 10 TB,我们在全球 10 万个节点,每台机器都是 24 核跑满状态.

电商创业，你到底需要多少人的技术团队？

电商创业,你到底需要多少人的技术团队? 随着互联网+向行业纵深融合,越来越多的企业的营销渠道开始从线下向线上转移,而打造电商平台成为一个很热门的话题.做电商,完全靠外包平台开发不行,不养技术人员不行,但到底需要配置多少技术人员来支撑电商业务呢?如果参考阿里.京东.苏宁,这种体量的电商平台,技术人员估计要往3000~5000人以上说,完全没有参考意义. 现在电商开发技术人员之抢手,超出你的想像,人员稳定和薪资福利挂钩,当然团队氛围也是一方面,但如果收入和市场差距太大,再好的感情都没有软妹纸亲热.

说话人分类（Speaker Diarisation）

简称SD,顾名思义,在采集的语音信号流中,分辨出不同说话人的说话时长并标注.参照2010年8月的文献[1]中的一张图: 又称说话人分割,在语音信号处理的多种场景下均有应用需求,近年来也被多来越多的研究者所关注.SD的方法分为以下两种:1)无监督方法,比如谱聚类以及k均值等:2)监督方法,深度神经网络,比如RNN等方法. 基于聚类的无监督方法如果单通道语音无overlapping,已知说话人个数,也知道每个人的说话起始与结束时间,那情况就好做多了:不过最好先有一个现成训练好的UBM/T或者DNN

十年一场云之战，重建这些科技公司与人的技术信仰

2006年是一个开始,当时一个叫做Amazon Web Service的小业务,掀起了一场十年之久.席卷全球的云计算狂潮. 从2000左右年开始的互联网大潮已经让很多科技企业对互联网盲目崇拜,然而自2006年由亚马逊开始的一场云之战,才让更多的传统科技企业彻底失去了方向.因为源自亚马逊的AWS云计算模式,彻底颠覆了微软.IBM.VMware.Oracle.Cisco.HP等一系列曾经的科技巨头,这些曾经被全球其它所有科技公司视为风向标的公司终于风光不在,转而各自寻找新生存与发展方向. 2017年

cv/dl/cl领域的实验室官网/牛人主页/技术论坛/比赛数据库/好玩的东西

一(自己整理的) #技术论坛 1/mit的关于关于机器人的技术review https://www.technologyreview.com/c/robotics/ 2/valse视觉与学习青年学者讨论会 http://valser.org/ 3/人工智能资讯平台/机器人/机器视觉 http://www.ailab.cn/robot/Machine_vision/ #比赛 1/pascal voc 含各种代码和数据库 http://www.eecs.berkeley.edu/Research/P