说话人分类(Speaker Diarisation)

简称SD,顾名思义,在采集的语音信号流中,分辨出不同说话人的说话时长并标注。参照2010年8月的文献[1]中的一张图:

又称说话人分割,在语音信号处理的多种场景下均有应用需求,近年来也被多来越多的研究者所关注。SD的方法分为以下两种:1)无监督方法,比如谱聚类以及k均值等;2)监督方法,深度神经网络,比如RNN等方法。

基于聚类的无监督方法

如果单通道语音无overlapping,已知说话人个数,也知道每个人的说话起始与结束时间,那情况就好做多了;不过最好先有一个现成训练好的UBM/T或者DNN模型,以这些作为extractor,对这待识别的segments提取出高维矢量,再聚类,效果会好点。具体步骤可参考知乎作者【Leon晋】的回答

基于RNN的监督方法

UIS-RNN[2]

这是谷歌2019年发表的一篇文章,研究了实时处理的说话人分类,不限制说话人数目,为每一个说话人建立了一个RNN模型,并且持续更新。文中表示实时说话人分割的准确率可以达到92%,并且DER降低至7.6%,超过了其先前基于聚类方法(8.8%)和深度网络嵌入方法(9.9%)。

文章主要提出了无界间隔状态(.Unbounded interleaved-state )RNN,一个可以通过监督学习训练的对于时变数据分割和聚类的算法。

首先看一张图,这是文中的SD results show:

不同颜色表示不同的说话人,横轴为时间索引。

这一方法与通常聚类方法的主要区别在于研究人员使用了参数共享的循环神经网络为所有的说话人(embeddings)建模,并通过循环神经网络的不同状态来识别说话人,这就能将不同的语音片段与不同的人对应起来。

具体来看,每一个人的语音都可以看做权值共享的RNN的一个实例,由于生成的实例不受限所以可以适应多个说话人的场景。将RNN在不同输入下的状态对应到不同的说话人即可实现通过监督学习来实现语音片段的归并。通过完整的监督模型,可以得到语音中说话人的数量,并可以通过RNN携带时变的信息,这将会对在线系统的性能带来质的提升。

系统的baseline结构为:

UIS-RNN是一个整句(X,Y)的在线生成处理过程,提出的算法结构为:

解码过程中采用最大后验概率准则解码,采用beam search方法处理。

在未来研究人员将会改进这一模型用于离线解码上下文信息的整合;同时还希望直接利用声学特征代替d-vectors作为音频特征,这样就能实现完整的端到端模型了。

参考

[1] Speaker Diarization: A Review of Recent Research

[2] Fully Supervised Speaker Diarization, 2019 ICASSP accepted.

原文地址:https://www.cnblogs.com/ytxwzqin/p/12150021.html

时间: 2024-08-29 10:39:14

说话人分类(Speaker Diarisation)的相关文章

说话人自适应技术

说话人自适应技术 (Speaker Adaptation ,SA):非特定人 (Speaker Independent ,SI):特定人 (Speaker Dependent ,SD) 『SA+SI』 自适应凡是分类:批处理式.在线式.立即式 | 监督 无监督 自适应经典算法:基于最大后验概率 (Maximum a posteriori ,MAP) 的算法.基于变换的算法『Tip : 先学习SI语音识别技术』 基于最大后验概率 (Maximum a posteriori ,MAP)算法 基本MA

[深度学习概念]·声纹识别技术简介

声纹识别技术简介 声纹识别,也称作说话人识别,是一种通过声音判别说话人身份的技术.从直觉上来说,声纹虽然不像人脸.指纹的个体差异那样直观可见,但由于每个人的声道.口腔和鼻腔也具有个体的差异性,因此反映到声音上也具有差异性.如果说将口腔看作声音的发射器,那作为接收器的人耳生来也具备辨别声音的能力. 最直观的是当我们打电话给家里的时候,通过一声“喂?”就能准确地分辨出接电话的是爸妈或是兄弟姐妹,这种语音中承载的说话人身份信息的唯一性使得声纹也可以像人脸.指纹那样作为生物信息识别技术的生力军,辅助甚至

语音中的风格转换

图像中的风格转换 风格转换是最早来源于图像领域的概念,一言以蔽之,即是:将一张图片的艺术风格应用到另外一张图片上. 深度卷积网络具有良好的特征提取能力,不同层提取的特征具有不同的含义.深度卷积网络由一层层的非线性函数组成,可以视为复杂的多元线性函数,该函数完成从输入图像到输出的映射.一般而言,训练风格转换深度网络的损失函数来源于两个方面: 内容损失 可以使用均方误差度量内容图片\(\vec p\)和生成的feature map即\(\vec x\)之间的距离: \[ L_{content}(\v

【文智背后的奥秘】系列篇——情感分类

版权声明:本文由文智原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/92 来源:腾云阁 https://www.qcloud.com/community 情感分类是对带有感情色彩的主观性文本进行分析.推理的过程,即分析对说话人的态度,倾向正面,还是反面.它与传统的文本主题分类又不相同,传统主题分类是分析文本讨论的客观内容,而情感分类是要从文本中得到它是否支持某种观点的信息.比如,"日媒:认为歼-31能够抗衡F-35,这种

HTML5 元素分类

HTML5元素分类:结构性元素.级块性元素.行内语义性元素.交互性元素. 目的:使文档的结构更加清晰明确: 增加新功能. 结构性元素:负责Web的上下文结构的定义,确保HTML文档的完整性. 1.1 section(给内容分段):在web页面应用中,该元素可以用于区域的章节表述. section 元素用于对网站或应用中页面上的内容进行分区,关注内容的独立性:一个section元素通常由标题及内容组成:section元素包含的内容可以单独存储到数据库中或输出到word文档中 1.2 header(

论文翻译:Generalized end-to-end loss for speaker verification

论文地址:2018_说话人验证的广义端到端损失 论文代码:https://google.github.io/speaker-id/publications/GE2E/ 地址:https://www.cnblogs.com/LXP-Never/p/11799985.html 作者:凌逆战 摘要 在本论文中,我们提出了一种新的损失函数,称为广义端到端( generalized end-to-end,GE2E)损失,使得说话人验证模型的训练比以往基于元组的端到端(tuple based end to

统计学习方法文本分类

一个文本分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类.通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上,说明计算机弱爆了就打它的屁屁. 注意这个定义当中着重强调的两个事实. 第一,用于分类所需要的类别体系是预先确定的.例如新浪新闻的分类体系,Yahoo!网页导航的分类层次.这种分类层次一旦确定,在相当长的时间内都是不可变的,或者即使要变更,也要付出相当大的代价(基本不亚于推倒并重建一个分类系

微信声音锁降临 以声识人设备不再遥远

语音短信是微信的一大特色,方便了广大受众.语音命令是未来的一个趋势,搜索引擎支持语音搜索,谷歌眼镜可以语音开始拍照,现在微信创新性推出声音锁功能,只要读出相应的数字,无需输入密码就能登录微信,使用声纹识别技术更安全快捷. 声音锁功能背后的技术原理是声纹识别,这个由微信模式识别中心语音技术组开发的新功能,是腾讯首次将声纹识别技术应用于用户产品中的一次尝试.目前该功能仍在灰度上线期间,仅部分用户可以体验到该功能. 想要开启声音锁功能,用户需要多次读出随机分配的一段数字,这个过程将帮助微信提取并制成与

[转]现代汉语词性分类

本文转自:http://blog.sina.com.cn/s/blog_af52657a01018zkj.html 一.实词:名词.动词.形容词.数量词.代词. (-)名词 名词是表示人或事物的词.例如: 指人的:鲁迅.农民.工人.作家.老师.学生 指物的:日.风.山.马.稻子.飞机.原子.计算机.车辆.纸张.道德.法律.文化 表时间的:春天.明年.早晨.星期天.现在.刚才 表处所的:马来西亚.北京.凯旋门.大庆.亚洲 表方位的:上.下.前.左.右.东.南.内.外(单纯的) 以上.以前.以东.上