SEGAN: Speech Enhancement Generative Adversarial Network

论文分析:

论文原文地址

一、引言

经典的语音增强(speech enhancement)方法有谱减法(spectral subtraction)、维纳滤波(Wiener filtering)、统计模型(statistical model-based methods)和子空间算法(subspace algorithms)。

论文结合GAN网络提出了SEGAN,并通过实验发现,SEGAN主要优势有以下三点:

1、提供一个快速语音增强过程,没有因果关系是必要的,因此没有像RNN那样的递归操作。

2、它基于原始音频做处理,没有提取特征,因此没有对原始数据做出明确的假设。

3、从不同的说话人和噪声类型中学习,并将他们合并到相同的共享参数中,这使得系统在这些维度上变得简单和一般化。

二、Generative Adversarial Networks

  论文的第二部分,是介绍GAN的,如果有GAN的基础可以跳过这一节。GAN网络是一种对抗模型,可以将样本服从Z分布的样本映射到服从X分布的x。

关于GAN的更多解释:

  有人说GAN强大之处在于可以自动的学习原始真实样本集的数据分布。为什么大家会这么说。

对于传统的机器学习方法,我们一般会先定义一个模型让数据去学习。(比如:假设我们知道原始数据是高斯分布的,只是不知道高斯分布的参数,这个时候我们定义一个高斯分布,然后利用数据去学习高斯分布的参数,最终得到我们的模型),但是大家有没有觉得奇怪,感觉你好像事先知道数据该怎么映射一样,只是在学习模型的参数罢了。

GAN则不同,生成模型最后通过噪声生成一个完整的真实数据(比如人脸),说明生成模型已经掌握了从随机噪声到人脸数据的分布规律。有了这个规律,想生成人脸还不容易,然而这个规律我们事先是不知道的,我们也不知道,如果让你说从随机噪声到人脸应该服从什么分布,你不可能知道。这是一层层映射之后组合起来的非常复杂的分布映射规律。然而GAN的机制可以学习到,也就是说GAN学习到了真实样本集的数据分布。

三、Speech Enhancement GAN 以及 实验步骤

整个网路全部是由CNN组成,下图是生成器G,他是一个encooder-decoder。D的结构是encoder,上面接了一个降维层。将8*1024个参数降维8个。

encoder由步长为2的1维卷积层构成。16384×1, 8192×16, 4096×32, 2048×32, 1024×64, 512×64, 256×128, 128×128, 64×256,32×256, 16×512, and 8×1024。

原文地址:https://www.cnblogs.com/LXP-Never/p/9986744.html

时间: 2024-08-10 07:13:35

SEGAN: Speech Enhancement Generative Adversarial Network的相关文章

论文阅读之:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network  2016.10.23 摘要: Contributions: GANs 提供了强大的框架来产生高质量的 plausible-looking natural images.本文提供了一个 very deep ResNet architure,利用 GANs 的概念,来形成一个 perceptual loss function 来靠

论文阅读:Single Image Dehazing via Conditional Generative Adversarial Network

Single Image Dehazing via Conditional Generative Adversarial Network Runde Li? Jinshan Pan? Zechao Li Jinhui Tang? School of Computer Science and Engineering, Nanjing University of Science and Technology 研究方向: Dehazing,cGAN motivation 对于直接通过算法复原有雾的图像

GAN (Generative Adversarial Network)

https://www.bilibili.com/video/av9770302/?p=15 前面说了auto-encoder,VAE可以用于生成 VAE的问题, AE的训练是让输入输出尽可能的接近,所以生成出来图片只是在模仿训练集,而无法生成他完全没有见过的,或新的图片 由于VAE并没有真正的理解和学习如何生成新的图片,所以对于下面的例子,他无法区分两个case的好坏,因为从lost上看都是比7多了一个pixel 所以产生GAN, 大家都知道GAN是对抗网络,是generator和discri

CSAGAN:LinesToFacePhoto: Face Photo Generation from Lines with Conditional Self-Attention Generative Adversarial Network - 1 - 论文学习

ABSTRACT 在本文中,我们探讨了从线条生成逼真的人脸图像的任务.先前的基于条件生成对抗网络(cGANs)的方法已经证明,当条件图像和输出图像共享对齐良好的结构时,它们能够生成视觉上可信的图像.然而,这些模型无法合成具有完整定义结构的人脸图像,例如眼睛.鼻子.嘴巴等,特别是当条件线图缺少一个或多个部分时.为了解决这一问题,我们提出了一个条件自注意生成对抗网络(CSAGAN).我们在cGANs中引入了条件自注意机制来捕获面部不同区域之间的长范围依赖关系.我们还建立了一个多尺度判别器.大规模判别

Speech Bandwidth Extension Using Generative Adversarial Networks

论文下载地址.博客园文章地址. 摘要 语音盲带宽扩展技术已经出现了一段时间,但到目前为止还没有出现广泛的部署,部分原因是增加的带宽伴随着附加的工件.本文提出了三代盲带宽扩展技术,从矢量量化映射到高斯混合模型,再到基于生成对抗性网络的深层神经网络的最新体系结构.这种最新的方法在质量上有了很大的提高,并证明了基于机器学习的盲带宽扩展算法在客观上和主观上都能达到与宽带编解码器相当的质量.我们相信,盲带宽扩展现在可以达到足够高的质量,以保证在现有的电信网络中部署. 关键词:盲源带宽扩展,人工带宽扩展,生

(转)Deep Learning Research Review Week 1: Generative Adversarial Nets

Adit Deshpande CS Undergrad at UCLA ('19) Blog About Resume Deep Learning Research Review Week 1: Generative Adversarial Nets Starting this week, I’ll be doing a new series called Deep Learning Research Review. Every couple weeks or so, I’ll be summa

Generative Adversarial Nets[pix2pix]

本文来自<Image-to-Image Translation with Conditional Adversarial Networks>,是Phillip Isola与朱俊彦等人的作品,时间线为2016年11月. 作者调研了条件对抗网络,将其作为一种通用的解决image-to-image变换方法.这些网络不止用来学习从输入图像到输出图像的映射,同时学习一个loss函数去训练这个映射.这让传统需要各种不同loss函数的问题变成了可以采用统一方法来解决成为可能.作者发现这种方法在基于标签map

Generative Adversarial Nets[Wasserstein GAN]

本文来自<Wasserstein GAN>,时间线为2017年1月,本文可以算得上是GAN发展的一个里程碑文献了,其解决了以往GAN训练困难,结果不稳定等问题. 1 引言 本文主要思考的是半监督学习.当我们说到学习一个概率分布,人们传统的意思是学习一个概率密度.这通常是通过定义一个参数化概率密度\((P_{\theta})_{\theta\in R^d}\)家族,然后基于收集的数据进行最大似然:如果当前有真实样本\(\{x^{(i)}\}_{i=1}^m\),那么是问题转换成: \[\unde

GAN01: Introductory guide to Generative Adversarial Networks (GANs) and their promise!

引用:Introductory guide to Generative Adversarial Networks (GANs) and their promise! What is a GAN? Let us take an analogy to explain the concept: 如果你想在某件事上做到更好,例如下棋,你会怎么做? 你或许会找一个比自己厉害的对手. 然后你会在你们对决中分析你错的地方和他对的地方, 并思考在下一场对决中你该如何击败对手. 你会不断重复这个过程,知道你击败对