语音中的风格转换

图像中的风格转换

风格转换是最早来源于图像领域的概念,一言以蔽之,即是:将一张图片的艺术风格应用到另外一张图片上。

深度卷积网络具有良好的特征提取能力,不同层提取的特征具有不同的含义。深度卷积网络由一层层的非线性函数组成,可以视为复杂的多元线性函数,该函数完成从输入图像到输出的映射。一般而言,训练风格转换深度网络的损失函数来源于两个方面:

  • 内容损失

    可以使用均方误差度量内容图片\(\vec p\)和生成的feature map即\(\vec x\)之间的距离:

    \[
    L_{content}(\vec p, \vec x, l)=\frac{1}{2}\sum_{ij}(X_{ij}^l-P_{ij}^l)^2
    \]

    其中,\(P^l\)是真实图片;\(X^l \in R^{N_l×M_l}\),\(N_l\)表示滤波器个数,生成图片feature map大小为\(M_l\)(\(M_l=width×height\))

  • 风格损失

    一般使用格拉姆矩阵(Gram Matrix)度量风格:\(G^l\in R^{N_l×N_l}?\)

    \[
    G^l_{ij}=\sum_k X_{ik}^l X_{jk}^l
    \]

    格拉姆矩阵存储的是图片的风格信息,计算两两特征的相关性,即哪两个特征是同时出现的,哪两个特征是此消彼长的。卷积层中一层的损失为:

    \[
    E_l=\frac{1}{4N_l^2 M_l^2}\sum_{i,j}(G_{ij}^l-A_{ij}^l)^2
    \]

    其中,\(G^l\)是生成图片feature map在第\(l\)层的格拉姆矩阵,\(A^l\)是风格图片在第\(l\)层的格拉姆矩阵。提取风格信息时,通常使用多个卷积层的输出,因此该部分的总损失为:

    \[
    L_{style}(\vec a,\vec x)=\sum_l^Lw_lE_l
    \]

    其中,\(\vec a\)是风格图片,\(\vec x\)是生成图片;\(w_l\)是每层损失的权重。

  • 总损失函数

    通过白噪声(高斯分布)初始化输出图片,然后通过深度网络对这个输出图片进行风格和内容两个方面的优化:

    \[
    L_{total}(\vec p,\vec a,\vec x)=\alpha L_{content}(\vec p,\vec x)+\beta L_{style}(\vec a,\vec x)
    \]

    其中,\(\vec p\)是内容图片,\(\vec a\)是风格图片,\(\vec x\)是待生成图片

风格迁移 Style transfer

风格迁移背后原理及tensorflow实现

音频中的风格迁移

本文中所谓的风格迁移是一种非常宽泛的说法,包括论文中所谓的“语音克隆”(voice clone)、“多说话人风格迁移”(multi-speaker)、“风格迁移”(style transfer)、“语音转换”(voice conversion)。

Voice Conversion

博客地址:VOICE CONVERSION

本文综述了2017年及之前出现语音风格迁移的方法。文中提到,深度网络对于语音处理困难。一来不如图像和文本领域研究火热,二来语音所具有的信息,难以编码到高维隐空间。一段语音时间序列中,混杂着以下方面的信息:说话人特征(如一个人的音色,音调等);语言学内容(语音表述的内容);副语言特征(如情感等)。

文中提供了4种方法:

  • 直接对频谱图卷积。利用现有的图像风格迁移的方法,直接对频谱图卷积。但是这种方法不能提取语音中的局部信息,更善于识别音频中的全局重复频率。文中使用CycleGAN实现了该方法。

    github上利用该思想实现的语音风格迁移:mazzzystar/randomCNN-voice-transfer

    实验中,该方法生成的语音质量很差,风格迁移效果不明显,生成速度过慢。

  • Supervised latent space / Unconditional generator.
  • Supervised latent space / Speaker conditioned genenrator.
  • Unsupervised latent space / Speaker conditioned generator. 文中使用VQ-VAE实现。

文中使用的数据集:

Uncovering Latent Style Factors for Expressive Speech Synthesis

论文地址:Uncovering Latent Style Factors for Expressive Speech Synthesis

样音:Audio Samples

该篇论文是Style Token系列的开篇之作,在Tacotron的基础上实现的风格转换。

在原始Tacotron的基础上,添加了如图红框内的Style Attention。其中,Style encoder由K个Style token组成,Style token随机初始化并被全局共享,做无监督学习。训练时,每一帧音频从上图Output t-1传入,作为query进入Text AttentionStyle Attention求得两个Context Vector。

  • Text Attention:

    \[
    c_t=\sum_s\alpha_{t_{s}}\overline{h_s}
    \]

    其中,\(\alpha_{t_s}\)是query和key求得的alignment,这里的query是一帧音频,key是每一个编码步上的输出;\(\overline {h_s}\)是每一个编码步上的输出

  • Style Attention:

    \[
    c‘_t=\sum_s\alpha‘_{t_s}\overline{h‘_s}
    \]

    其中,\(\alpha‘_{t_s}\)是query和key求得的alignment,这里的query是一帧音频,key是每一个Style token;\(\overline {h‘_s}\)是每一个Style token。实验中,该部分的注意力机制是content-based RNN attention,这种注意力机制求alignment的公式是:

    \[
    e_{ij}=v_a^T\mathop{tanh}(wh_{s-1}+u\overline{h_j})
    \]

    其中,\(v_a^T,w,u\)是待训练的参数,\(h_{s-1}\)是上一解码步的输出(query),\(\overline{h_j}\)是编码器的输出(key-value)

求得的两个Context Vector加权求和,实验中,以sigmoid为输出的单层MLP求得权重。

\[
c_{t_{final}}=\alpha c_t+(1-\alpha)c‘_t
\]

其中,\(\alpha\)是MLP求得的权重,MLP的输出为上一个解码步的输出。

Style Attention的设计,使得模型学习到了文本无关的韵律信息(Style token的训练完全与文本脱离);文本输入以离散的Style embedding为条件(the design of GSTs allows textual input to be conditioned on disentangle style embedding);另外,由于一帧求得一个\(c‘_t\),因此模型实际是对一段音频的局部信息建模。

Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

论文地址:Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

样音:Audio Samples

Tensorflow实现:cnlinxi/style-token_tacotron2

该篇是Style Token系列的第二篇,看论文的完成度和样音似乎较为成熟了。该篇文章和上一篇《Uncovering Latent Style Factors for Expressive Speech Synthesis》最大的不同在于:添加Reference encoder,编码一段音频整体的风格特征,该encoder生成的向量,作为Style attention的query求得表征整个音频风格的style embedding。

提出了一种"global style tokens"(GSTs)模型,该模型包括三个部分:参考编码器(reference encoder),风格注意力(style attention),风格编码(style embedding)和序列到序列的生成模型(即Tacotron)。

  • Training

    • the reference encoder: 将变长音频的风格压缩到一个固定大小的向量,称此向量为参考嵌入向量(reference embedding)。在训练阶段,参考音频是平行语料中的真实音频。
    • reference embedding送入注意力模块作为query,K个style token作为key-value,求得Style embedding。其中,style token随机初始化,并在整个训练过程中,被所有音频全局共享。这些style token的集合被称作global style tokens, GSTs。实验中,求得的Style embedding直接与Text encoder的每个编码步拼接即可。
  • Inference

    推断阶段有两种模式:一种如上图左侧所示,送入一段想要被模仿风格的音频,深度网络求得该音频的Style embedding进入下游;另一种是手动指定各个style token的权重,注意这里的权重的加和可以不为0,甚至权重可以为负值,同样可以生成Style embedding进入下游。

模型细节

提出的GST-augmented Tacotron系统基于Tacotron,整体模型没有大的改动。最重要的Style Token结构:

  • Reference Encoder

    CNN stack -> RNN, 输入梅尔频谱,输出固定长度的向量

  • Style Token Layer
    • style token embedding_size: 256-D, tanh activation. 实验中,发现使用10个style token就足以捕获所有的Style信息。
    • content-based tanh attention. 文中称,使用多头注意力能够显著提高风格迁移能力,实验中,使用了4头注意力。

实验

  • 数据:147小时美式英语有声书音频,2013 Blizzard Challenge speaker,富有生动和感情的朗读。
  • 因为Style token部分的训练是无监督学习,因此训练完成之后,并不知道每个token存储的是什么样的Style信息。在训练完成后,可以对每一个token乘以任意scalar作为style embedding,之后生成音频,获知每个token捕获的Style信息。

Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

论文地址:Predicting Expressive Speaking Style From Text In End-To-End Speech Synthesis

样音:Audio Samples

该篇是Style Token系列的第三篇。事实上,这篇论文并不是为了做风格迁移,而是希望生成更为自然的语音。在上一篇《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》基础上,风格的推断不再是由待模仿音频或手动指定,而是从文本中计算获得。引入一个额外的深度网络,学习原先由Style token layer产生的Style embedding。

上图红框内,即为在《Style Token》基础上添加的两个,能够从文本中推断Style的深度网络,分别为TPCWTPSE。这两种推断Style的深度网络预测的目标不同,其中,TPCW希望预测Style Attention计算出的alignment,即对各个Style Token的加权权重(combination weights);而TPSE希望直接预测Style Token Layer产生的Style Embedding。

两种用于捕获文本特征的深度网络结构相似:

  • 输入:Tacotron文本编码器的输出;输出:固定大小的向量。
  • 网络结构:

    \[
    CBHG\to GRU-RNN\to FC
    \]

    其中,GRU-RNN: 64-units, 最后一个时间步的输出送入全连接层,该层作为变长输出的Text Encoder的summarizer。

  • TPCW

    由于预测的目标是Style attention计算出的alignment,即上图中的\([0.2,0.1,0.2,0.2,0.1,0.4]\),因此从全连接层的输出可以直接与alignment做交叉熵作为损失函数。训练时,先保持TPCW部分不动,其余部分实际和《Style Token》相同。它们先行BP,获得的Style attention的alignment作为真值。然后保持其余部分不动,用刚刚获得的alignment和预测值做交叉熵,更新TPCW部分的深度网络。

    在做推断时,需要使用网络中训练得到的Style Tokens。

  • TPSE

    预测的目标直接是Style Embedding。注意,在该深度网络中,最后一层全连接层可以是多层:

    \[
    relu\to tanh
    \]

    以匹配Style token层的tanh激活函数。和上述TPCW类似,只不过直接预测Speaker embedding,对Style Token Layer产生的Speaker Embedding“真值”和TPSE产生的预测值做L1损失。

    在这种模式下,由于从文本中直接预测Style Embedding,推断时可以完全抛弃网络中的Style Tokens。

实验

  • 单说话人

    • 数据:147小时美式英语有声书,富有感情。
    • 20个Style Tokens,Style Attention使用4头注意力。TPSE中的多层全连接层在实验中采用64-units单隐层。

      这张图可以看到,解决了Tacotron baseline中,预测音频的语调,随时间渐低的现象。

  • 多说话人
    • 数据:190小时美式英语有声书,22个说话人,speaker embedding_size: 64-D. 音频中有的富有感情,有的语气中性。
    • 40个Style Tokens,252-D,Style Attention使用6头注意力。

Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

论文地址:Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis

样音:Audio Samples

该篇是侧重多说话人语音合成的论文,整个模型结构很简单,只是在Tacotron的基础上增加了一个Speaker Encoder的深度网络,用于表征说话人的音色特征。

模型结构

  • Speaker Encoder:正如论文名字所言,Speaker Encoder实际上是谷歌之前提出的说话人鉴别网络,该深度网络单独预训练,训练语料使用大量的说话人音频,不需要对应文本,且音频可以充满噪音,该部分网络输出固定大小的说话人向量(speaker embedding),说话人向量就编码了说话人的声音特征。

  • Synthesizer:Tacotron2梅尔频谱生成网络。在预测的频谱上加L1+L2正则,有助于在有背噪的训练集上更为鲁棒,但不在speaker embedding引入额外的loss。
  • Vocoder:WaveNet

如上,可以证明该模型确实做到了多说话人迁移,使用同一生成网络,不同的speaker embedding。最上面是男性音频,下面两个是女性音频。左侧为reference audio,真实音频;右侧为生成的梅尔频谱。

从上面可以看到:

1.最上面男生有更低的基频,在频谱上显示则是:在最上面的频谱图在低频区域有更密集的谐波分布,竖直条纹更密集。

2.最上面的F2(共振峰)出现在梅尔channel35左右,而中间的F2则出现在梅尔channel40的位置。(注:共振峰F0, F1, F2,…一般关注前3个共振峰)

3.男性的齿擦音如‘s‘,0.4s位置在低频处,相比女性有更高的能量。

实验

  • 数据

    • VCTK:44h,109 speakers,英音。声音干净
    • LibriSpeech:436h,1172 speakers,美音。LirbriSpeech有背噪,同一说话人的声调和说话风格在不同音频中可能极度不同
  • 自然度

    模型拿到的自然度MOS,同一speaker,值越大,越自然,越像人类发声。Embedding tabel指的是类似于DeepVoice2、DeepVoice3的方法。

    • VCTK的MOS高于LibriSpeech原因:a. LibriSpeech文本缺少标点;b. LibriSpeech有背噪
    • VCTK和LibriSpeech的reference audio是未见说话人所生成的音频MOS相反要高,这可能是因为所引用的音频恰好是正常点的韵律。
    • 学习到了reference audio的“韵律”信息解决方法:a.引入prosody encoder as in [16,24];b.训练时,采用同一说话人不同语句的音频进行训练。
  • 相似度

    相似度MOS,度量生成音频和真实音频是同一个人的主观评分。同一speaker,值越大,越相似,越好。Embedding tabel指的是类似于DeepVoice2、DeepVoice3的方法。

    • 在合成seen的LibriSpeech的语音对比中,baseline(embedding table)相似度大于提出的模型(3.70±0.08>3.28±0.08),这可能由于LibriSpeech有更高的内部说话人方差和背噪(which is likely due to the wider degree of within-speeker variation and background noise level in the dataset)
    • speaker encoder是由北美口音训练集训练,而梅尔生成网络和声码器是由英式口音训练而来,这会降低了模型的表现。

    生成网络&vocoder的训练集和测试集不相同,同一speaker embedding生成的语音自然度和相似度。从similarity上对比,1.83±0.08<2.77±0.08(VCTK<LibriSpeech)可以看出,生成网络在100个说话人上训练是不足的。

  • 说话人鉴别

    之前使用了相似度MOS作为,度量同一说话人生成音频和真实音频的相似程度。此处使用一个独立的声纹识别系统,度量相似程度。

    上图中的EER, SV-EER: speaker vertification equal error rate,在不同训练集上的生成网络的相同说话人错误率(越低越相同,也就是越好)

    生成的同一说话人的音频相比于真实音频相似度,生成音频和生成音频更相似(EER: 2.86%)。因此,生成音频确实有在模仿目标说话人,但并不足以以假乱真。

  • Speaker Embedding高维空间

    由speaker encoder生成的speaker embedding可视化,同一说话人颜色相同;x表示生成,o表示真实。

    • 同一说话人聚在了一起(左图)。
    • 生成和真实的embedding构成了不同的簇(右图)。也就是说,Speaker encoder是改进的重点之一。
    • embeeding很好的学习到了男女之别(左+右图)。
  • Speaker encoder训练集对生成质量的影响

    LS-Other: 461h, 1166 speakers

    LS-Other+VC: 131k句,1166+1211speakers

    LS-Other+VC+VC2:1.09M句,1166+5944 speakers。另外为了避免过拟,表中上面两栏speaker encoder的网络为256LSTM+64Linear, output: 64-dim embedding vector

    在该模型上,

    • 当speaker encoder训练集中说话人数量增大,自然度和同一说话人生成相似性也都显著提升。
    • speaker encoder的训练数据集大小对整个多说话人语音合成影响显著。由于训练speaker encoder需要的语料只需要音频且音质要求低,因此训练集多多益善。
  • 虚拟说话人

    随机采样的speaker embedding,仍能合成较为自然的音频。另外,低cos相似度,高EER表明了,生成的音频确实与训练集中的说话人相异。

结论

  • speaker encoder的训练集大小对多说话人模型生成质量影响显著;
  • 低维speaker embedding限制了表达说话人特征的能力;
  • 没有达到人类流畅性原因:a.每个说话人数据量很少;b.训练集音质差;c.难以迁移口音(英式生成器,美式speaker encoder,不匹配);
  • 提出的模型,难以抛除reference audio中的韵律信息。

论文附录

  • 对比联合训练和分开训练生成网络和speaker encoder的效果

    最后一栏,proposed model(Table 1,2,5)的speaker encoder是由未公开数据集,18k说话人语料训练而来(speaker encoder trained separately on a corpus of 18K speakers)

  • 讨论训练集

    LibriSpeech同一说话人风格差异大,角色扮演甚至男扮女。

  • 在VCTK上训练的模型的性能表现与说话人相关

  • 讨论reference audio时长对于模型性能的影响

    • 仅2s的reference audio即可达到接近最好的表现。
    • 3或5s最好,5s的reference audio似乎已超过了speaker embedding的表达能力。
    • 当有更多的数据时,微调网络甚至仅仅微调speaker encoder都有助于提升模型表现。
  • 虚拟说话人

    每个虚拟说话人的生成音频都有明确的内容信息但却有不同的基频和speaking rate

Deep Voice 2: Multi-Speaker Neural Text-to-Speech

论文地址:Deep Voice 2: Multi-Speaker Neural Text-to-Speech

Deep Voice 2是百度提出的,类似于Tacotron的端到端语音合成系统,对该深度网络不是非常熟悉,但是其中也述及多说话人语音合成的问题。该模型整体结构:

多说话人语音合成

与上述的《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》不同,Deep Voice 2只能合成已见说话人的音频。speaker embedding首先被均匀初始化,然后联合模型其它部分,一起参与训练。一个特定数据集训练获得的Deep Voice 2对应着一个特定的speaker embedding集合。

在Speaker embedding的使用方法上,提供了4种使用模式:

  • Site-Specific Speaker Embeddings:在任何用到speaker embedding的地方,使用非线性仿射变换,改变speaker embedding的维度。
  • Recurrent Initialization:使用上述的Site-Specific Speaker Embeddings初始化循环层隐状态。
  • Input Augmentation:在循环层每一个时间步的输入拼接Site-Specific Speaker Embeddings。
  • Feature Gating:将深度网络层的激活值与Site-Specific Speaker Embeddings元素乘。

实验

  • 数据:

    • VCTK:44h,109 speakers
    • 内部数据集:238h有声书,477 speakers,每人平均30min的音频
  • 结论
    • 无论Tacotron和Deep Voice 2,均足够在此基础上做多说话人语音合成;
    • 向后处理网络中的CBHG添加speaker embedding反而会降低音质,但是向text encoder中加入speaker embedding是必要的;
    • 可使用speaker embedding增益decoder,可以在decoder的pre-net添加speaker embedding作为额外输出;另外,可以使用speaker embedding初始化attention的context vector以及decoder的GRU隐状态。

Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

论文地址:Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

百度的Deep Voice 2升级版。

Speaker embedding添加位置包括:

  • Encoder Pre-Net
  • Encoder Concat
  • Decoder Pre-Net
  • Attention Context Vector

除此之外,这篇论文中还提到了文本预处理步骤,大规模部署等问题。文中声称,使用文本预处理方法,解决字词“错读”、“跳读”,“重复读”等现象。

Neural Voice Cloning with a Few Samples

论文地址:Neural Voice Cloning with a Few Samples

样音:Audio Samples

这篇论文主要讨论使用较少的参考语料,就能够模仿一个说话人的声音。

论文中,公开了使用的speaker encoder结构:

上图中,有两个激活函数不常见:

  • ELU:类似于ReLU的激活函数,the exponential linear unit

    \[
    f(x)=\left\{\begin{matrix}
    x, & x>0\\
    \alpha(e^x-1), & x\leq 0
    \end{matrix}\right.\f‘(x)=\left\{\begin{matrix}
    1, & x>0\\
    f(x)+\alpha, & x\leq 0
    \end{matrix}\right.
    \]

    其中,\(\alpha\)是可调参数,它控制着ELU负值部分在何时饱和。

  • softsign:类似于tanh的激活函数

    \[
    f(x)=\frac{x}{1+|x|}\f‘(x)=\frac{1}{(1+|x|)^2}
    \]

    tanhsoftsign更容易饱和。

    softsign

    tanh

ELU激活函数

ReLU、LReLU、PReLU、CReLU、ELU、SELU

softsign与tanh的比较

另外,

  • 线性变换:\(y=Ax\)
  • 仿射变换(affine transformation):\(y=Ax+b\)

和《Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis》一样,该论文中还使用了多说话人鉴别网络,做相似度客观评价,文中使用的多说话人鉴别网络结构为:

其中,PLDA为概率线性判别分析,用于给两段音频的高维编码相似度打分:

\[
s(x,y)=w·x^Ty-x^TSx-y^TSy+b
\]

其中,\(x,y\)分别是两段音频从全连接层送出的高维编码,\(w,b\)均是标量,\(S\)是对称矩阵。

之后,从概率线性判别出来的\(s(x,y)\)进入sigmoid层,给出两段音频来自同一说话人的分数。该模型使用交叉熵作为损失函数。

另外,百度2017年公布了另一个说话人鉴别网络《Deep Speaker: an End-to-End Neural Speaker Embedding System》,论文地址:Deep Speaker: an End-to-End Neural Speaker Embedding System;Tensorflow开源实现:philipperemy/deep-speaker,Pytorch开源实现:qqueing/DeepSpeaker-pytorch

Effect of data reduction on sequence-to-sequence neural TTS

论文地址:Effect of data reduction on sequence-to-sequence neural TTS

亚马逊这篇文章主要探讨了低语料对多说话人语音合成的影响。事实上,机器翻译、语音合成等都受限于平行语料难以获取的问题,有不少文章提出了解决方案,如Semi-Supervised Training for Improving Data Efficiency in End-to-End Speech Synthesis,以及THUNLP-MT/MT-Reading-ListLow-resource Language Translation部分提及的论文。

Sample Efficient Adaptive Text-to-Speech

论文地址:Sample Efficient Adaptive Text-to-Speech

端到端语音合成的风格迁移不仅仅可以在频谱生成网络或者频谱上动手脚,当然也可以在声码器上想办法。该篇文章介绍了,在部署时,只需少量数据就能快速适应新说话人的声码器网络。

原文地址:https://www.cnblogs.com/mengnan/p/10294884.html

时间: 2024-10-10 00:32:33

语音中的风格转换的相关文章

9.4.2.2 F# 中的向上转换和向下转换(UPCASTS AND DOWNCASTS)

9.4.2.2 F# 中的向上转换和向下转换(UPCASTSAND DOWNCASTS) 如果类型之间的转换不会失败,就称为向上转换(upcast).我们已经看到,把类型转换成由该类型实现的接口,就是这种情况:另一个示例是把派生类转换成它的基类,在这种情况下,编译器也可以保证操作是正确的,不会失败. 如果有一个基本类型的值,希望将它转换为继承类,操作可能会失败,因为基类的值可能是目标类的值,也可能不是.在这种情况下,我们必须使用第二种类型转换,称为向下转换(downcast).让我们用一个示例来

c++中的强制转换static_cast、dynamic_cast、reinterpret_cast的不同用法儿

c++中的强制转换static_cast.dynamic_cast.reinterpret_cast的不同用法儿 虽然const_cast是用来去除变量的const限定,但是static_cast却不是用来去除变量的static引用.其实这是很容易理解的,static决定的是一个变量的作用域和生命周期,比如:在一个文件中将变量定义为static,则说明这个变量只能在本Package中使用:在方法中定义一个static变量,该变量在程序开始存在直到程序结束:类中定义一个static成员,该成员随类

图像风格转换(Image style transfer)

图像风格转换是最近新兴起的一种基于深度学习的技术,它的出现一方面是占了卷积神经网络的天时,卷积神经网络所带来的对图像特征的高层特征的抽取使得风格和内容的分离成为了可能.另一方面则可能是作者的灵感,内容的表示是卷积神经网络所擅长,但风格却不是,如何保持内容而转换风格则是本文所要讲述的. 本篇属于论文阅读笔记系列.论文即[1]. 引入 风格转换属于纹理转换问题,纹理转换问题在之前采用的是一些非参方法,通过一些专有的固定的方法来渲染. 传统的方法的问题在于只能提取底层特征而非高层抽象特征.随着CNN的

吴恩达【深度学习工程师】 04.卷积神经网络 第四周特殊应用(2)神经风格转换

该笔记介绍的是<卷积神经网络>系列第四周:特殊应用(2)神经风格转换 主要内容有: 1.神经风格转换 2.卷积网络隐藏单元可视化显示 3.神经风格转换代价函数 4.内容代价函数 5.风格代价函数 *6.数据从一维到三维的推广 神经风格转换 把C(content)内容图片转化为风格类似S(style)风格图片的G(generated)生成图片. 卷积网络隐藏单元可视化显示 通过观察可视化显示的不同隐藏单元的输出结果真正了解卷积网络中深度较大的层真正在做些什么. 可视化图块输出: 从第一层隐藏层第

语音文件怎么在线转换文字

很多时候大家都需要将语音文件转换成文字的,比如大家经常会遇到的一种情况就是"商场叫卖",这种商品叫卖大多数都是以语音叫卖的,但在我们工作中会需要将各种语音剪辑成自己所需要的文字形式然后汇成文案汇报给领导,那语音文件怎么在线转换文字呢,让小编来为大家解答一下吧.转换工具:[迅捷PDF转换器]第一步:将需要转换成文字的语音在电脑上准备好,然后再通过电脑浏览器搜索迅捷语音云服务,来帮助我们进行转换.第二步:进入到语音与服务页面后,在页面中心可以看到两个转换选项,根据需要从中选择语音转文字的选

新手学习算法----二叉树(将一个二叉查找树按照中序遍历转换成双向链表)

题目:将一个二叉查找树按照中序遍历转换成双向链表. 给定一个二叉查找树: 4 / 2 5 / 1 3 返回 1<->2<->3<->4<->5. 思路:如果对于当前节点,把右子树转换成双向链表,然后把左子树转换成双向链表,转换的时候我们都标记了链表的头节点和尾节点,那么只需要将当前节点和左子树的尾部相连,和右子树的头部相连即可. Java代码:这个是借鉴九章里面的解题法.但是对于左右子树转换成二叉树也不是很理解,还待需要继续分析. /** * Definit

向数据库中插入一个DateTime类型的数据到一个Date类型的字段中,需要转换类型。TO_DATE(&#39;{0}&#39;,&#39;YYYY-MM-DD&#39;))

需要指出的是,C#中有datetime类型,但是这个类型是包括小时,分钟,秒的.这个格式与数据库中的Date类型不符,如果将now设为datetime类型插入数据会失败. 需要通过TO_DATE('字段','YYYY-MM-DD'))转换.如下: string.Format("insert into tablename (TIME) values(TO_DATE('{0}','YYYY-MM-DD'))",now) 错误写法: string.Format("insert in

SQL中PIVOT 行列转换

SQL中PIVOT 行列转换 本文导读:T-SQL语句中,Pivot运算符用于在列和行之间对数据进行旋转或透视转换,PIVOT命令可以实现数据表的列转行,同时执行聚合运算,UNPIVOT则与其相反,实现数据的行转列. PIVOT通过将表达式某一列中的唯一值转换为输出中的多个列来旋转表值表达式,并在必要时对最终输出中所需的任何其余列值执行聚合.UNPIVOT与PIVOT执行相反的操作,将表值表达式的列转换为列值. 通俗简单的说:PIVOT就是行转列,UNPIVOT就是列传行 一.PIVOT实例 1

字符串转换:字符串中的&#39;aa&#39;转换成&#39;bb&#39;,但是如果是&#39;a&#39;、&#39;aaa&#39;等,则不进行转换

代码: public void transferString(String str) { //0.条件初始化 char[] cArr = str.toCharArray(); //将字符串转为字符数组处理 char[] flagArr = new char[cArr.length]; //字符数组标记,判断是否转换 for(int i = 0; i < flagArr.length; i++) { //字符数组初始为0 flagArr[i] = '0'; } //1.循环遍历数组,每次处理一个或