声纹识别之PLDA算法描述

之前我写过《我对说话人识别/声纹识别的研究综述》,本篇基本上可以是这个综述的续写。其实,写的也没有什么深度,想获得深度信息的朋友们可以不用往下看了,还不如下载几篇领域内的国内博士论文看看。为什么是国内呢?因为国内博士论文前面的综述写的还不错,嘿嘿~我写这个主要是给不熟悉这个领域内的朋友看的,用通熟的话描述这个领域内重要的一些算法,等于是入个门吧。

PLDA算法

前面博客已经提到过声纹识别的信道补偿算法,而且重点说了LDA算法。PLDA(Probabilistic Linear Discriminant Analysis)也是一种信道补偿算法,号称概率形式的LDA算法。PLDA同样通常是基于I-vector特征的,因为I-vector特征即包含说话人信息又包含信道信息,而我们只关心说话人信息,所以才需要信道补偿。PLDA算法的信道补偿能力比LDA更好,已经成为目前最好的信道补偿算法。

关于PLDA的经典论文是这一篇《Probabilistic Linear Discriminant Analysis for Inferences About Identity》。可是,用了这个算法这么久,我一直搞不清楚为什么PLDA是概率形式的LDA。汗。。所以本文的写作思路也围绕这个问题的解决而展开。

在这篇论文中,作者说:PLDA与LDA的关系就好比因子分析和主成分分析PCA的关系。所以,我们有必要先简单提一下因子分析。

因子分析

因子分析 (factor analysis) 是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。

下面从网上摘抄一个因子分析的例子,感谢原作者!

PLDA算法解释

概念理解

在声纹识别领域中,我们假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音。那么,我们定义第i个说话人的第j条语音为Xij。然后,根据因子分析,我们定义Xij的生成模型为:

这个模型可以看成两个部分:等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关,称为信号部分,这描述了说话人类间的差异;等号右边后两项描述了同一说话人的不同语音之间的差异,称为噪音部分。这样,我们用了这样两个假想变量来描述一条语音的数据结构。

我们注意到等号右边的中间两项分别是一个矩阵和一个向量的表示形式,这便是因子分析的又一核心部分。这两个矩阵F和G包含了各自假想变量空间中的基本因子,这些因子可以看做是各自空间的特征向量。比如,F的每一列就相当于类间空间的特征向量,G的每一列相当于类内空间的特征向量。而两个向量可以看做是分别在各自空间的特征表示,比如hi就可以看做是Xij在说话人空间中的特征表示。在识别打分阶段,如果两条语音的hi特征相同的似然度越大,那么这两条语音就更确定地属于同一个说话人。

模型训练

容易理解,PLDA的模型参数一个有4个,分别是数据均值miu,空间特征矩阵F和G,噪声协方差sigma。模型的训练过程采用经典的EM算法迭代求解。为什么用EM呢?因为模型含有隐变量。

模型测试

在测试阶段,我们不再像LDA那样去基于consine距离来计算得分,而是去计算两条语音是否由说话人空间中的特征hi生成,或者由hi生成的似然程度,而不用去管类内空间的差异。在这里,我们使用对数似然比来计算得分。如下图所示:

公式中,如果有两条测试语音,这两条语音来自同一空间的假设为Hs,来自不同的空间的假设为Hd,那么通过计算对数似然比,就能衡量两条语音的相似程度。得分越高,则两条语音属于同一说话人的可能性越大。

一个简化版本的PLDA

由于我们只关心区分不同的说话人的类间特征而不用去管同一个说话人的类内特征,所以其实没有必要向上面一样对类内空间G参数进行求解。于是,我们可以得到一个简化版本的PLDA,如下如:

版权声明:本文为博主原创文章,欢迎转载,但请注明出处~

时间: 2024-11-07 00:07:07

声纹识别之PLDA算法描述的相关文章

声纹识别PLDA模型的理解

PLDA算法解释 概念理解 在声纹识别领域中,我们假设训练数据语音由I个说话人的语音组成,其中每个说话人有J段自己不同的语音.那么,我们定义第i个说话人的第j条语音为Xij.然后,根据因子分析,我们定义Xij的生成模型为:  这个模型可以看成两个部分:等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关,称为信号部分,这描述了说话人类间的差异:等号右边后两项描述了同一说话人的不同语音之间的差异,称为噪音部分.这样,我们用了这样两个假想变量来描述一条语音的数据结构. 我们注意到等号右边的中间

[深度学习概念]·声纹识别技术简介

声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性.如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力. 最直观的是当我们打电话给家里的时候,通过一声“喂?”就能准确地分辨出接电话的是爸妈或是兄弟姐妹,这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸.指纹那样作为生物信息识别技术的生力军,辅助甚至

声纹识别技术助力远重庆时时彩技巧程身份认证无线互联网以及智能手机的迅速发展

声纹"作为一种典型的行为特征,相比其他生理特征在远程身份认证中具有先天的优势,文章介绍了声密保在远程身份认证中的应用,解析了一些在声纹识别准确率.时变问题和噪音问题等方面的技术难点和工程解决经验,最后针对远程身份认证的安全性问题,分享了得意音通在防录音闯入上的最新研究成果.希望对广大读者有所帮助. 声纹在远程身份认证中的应用 网络安全面临重大挑战 无线互联网以及智能手机的迅速发展,给人们日常生活带来极大便利的同时也带来了不容忽视的安全隐患,如何准确.迅速.安全地实现远程身份认证成为摆在人们面前急

扒一扒:《大话西游》中的声纹识别!

近期,星爷经典作品大话西游重新上映,引发怀旧热潮.小编也买了票,想重温一下传说中那份感动. 万万没想到,看了一会,小编就没控制住大开的脑洞,陷入了离题万里的思考中:电影中,紫霞说一声"芝麻开门",盘丝洞的门就自动打开了,而至尊宝说"芝麻开门"时,门不仅没开,而且还把他砸了个半死. 十年前看的时候不明白为什么,现在再看时忽然领悟了: 盘丝洞的门肯定使用了声纹识别技术! 那么现在问题来了:何为声纹识别技术?现实世界里面有应用吗? 下面就一一为大家道来. 声纹识别技术,又

声纹识别 ====飞讯

http://osp.voicecloud.cn/ // //  ViewController.m //  Custom声纹识别 // //  Created by 谢泽锋 on 15/4/30. //  Copyright (c) 2015年 谢泽锋. All rights reserved. // #import "ViewController.h" #import "TrainViewController.h" #import <iflyMSC/IFly

声纹识别鉴定助破案 逃亡五年“栽”在声音上

声音是什么?在专家的眼里,声音就是一张"人体身份证". 作为我国声纹鉴定技术创始人之一,广东省公安厅刑事技术中心高级工程师王英利近30年来一直致力于声纹研究.自1990年起,他办理的各类声纹鉴定案件达500余起,未出任何差错. 20世纪80年代后期,通讯技术日益现代化,私人电话和公用电话大量增加,移动通讯异军突起,这虽然方便了正常的社会交际,也使犯罪分子利用电话作案有了可乘之机.电话成为犯罪分子作案中必不可少的通讯渠道. 犯罪学中,证据的应用非常关键.在省公安厅刑事技术中心声纹实验室,

声纹识别声纹司法鉴定必看

声纹,也称"语图",是由专用的电声转换仪器(语图仪)将声波特征绘制成的波谱图形.声纹鉴定就是把未知人的语声和已知人的语声,通过语图仪分别制成声纹图谱,再依据声纹图上的特征进行分析.比较和判断,确定二者是否为同一人的语声.它是文检技术中近些年发展起来的语音识别的先进科学手段. 一.声纹的意义 在实际生活中,我们都有切身体会:每个人说话时的语声,都有自己的特点.很熟悉的人之间,可以只听声音而相互辨别出来,这就是语声人各不同的特性. 为什么人的语声会人各不同呢?因为人的发声器官实际上存在着大

我对说话人识别/声纹识别的研究综述

GMM-UBM系统框架 最初用的特征是声学特征MFCC,这个东西我不太熟,只知道它是从wav或者其它格式语音文件直接提出. 有了特征就可以建立模型了,这里我们的模型叫做"高斯混合模型".不同说话人的差异主要表现在其短时语音谱的差异,而这又可以用每个说话人的短时谱特征所具有的概率密度函数来衡量.高斯混合模型GMM将空间分布的概率密度用多个高斯概率密度函数的加权和来拟合,可以平滑地逼近任意形状的概率密度函数,并且是一个易于处理的参数模型.在具体表示上,这个模型实际上就是把高斯混合模型的每个

亚通声纹认证技术助力网络身份认证

社交媒体注册.网上购物.在线银行交易--在人们的日常生活中,需要网络实名认证的越来越多. 烟台亚通网络科技有限公司出品的声纹验证引擎为各适应各类场合提供网络身份认证服务. 提供更专业的私有云部署 避免了其他厂商的公有云无法应用于各类机密等级较高的内网系统. 中国科学院院士张钹指出,保证信息安全是关系到国计民生的重大问题,而身份认证则是其中至关重要的部分.虽然信息技术发展日新月异,但要让每一个人在任何情况下都有一个唯一不变的身份信息,仍是一个非常难的课题. 据了解,目前身份验证的方法大致分为:基于