Voice Conversion using Convolutional Neural Networks 翻译

来源:互联网 发布:qq影音windows版电脑版 编辑:程序博客网 时间:2024/04/30 09:46

原文来自arXiv.org (Mobin S, Bruna J. Voice Conversion using Convolutional Neural Networks[J]. 2016.)

摘要:除了音调外,音色是识别说话人的关键,但我们对此了解不多。在这篇论文我们利用神经网络来变换说话人声音。(不仅转换说话人音调,还包括了音色的转换)。我们用能够学习类比的神经网络结构来构建生成模型。

 

1.介绍

当声学家描述一个人说话声音的不同时首先提到的是音调其次是音色。当音调很好地被谐波结构描述时,音色被广泛描述为除音调和强度外的一切。音调相同的声音可能听起来完全不同(如对于同一音调的声音,钢琴和小号产生的听起来差别很大)。

语音信号可以看作是两个因素(说什么 和 谁在说)的耦合(entanglement)。语音信号是一个非稳定的过程,这导致了对这两个因素的解耦过程非常困难。在这篇论文里我们将探索保持其中一个因素不变而交互另一个因素是否可能。也就是说,我们会看到保持说的单词不变时转换说话人的语音信号是否可能。在参考文献[4]中, 根据大脑的声学表达,沿着小号和钢琴的音色轴来插入声音是可能的(创造了一种介于小号和钢琴的乐器)。然而,模型是人工完成的,因此我们探索运用神经网络来完成转换操作。

 

2.背景

2.1 Constant Q-Transform

理论上,我们可以用原始波形数据作为输入训练网络,然而,频率变换分析会使信号的谐波结构更清楚。因此,我们对音频信号应用常量Q小波变换(CQT)。这个变换有许多令人满意的特点,其中最重要的有:

1.变换使用了频率的对数尺度。正如来自人类发声系统的声音波形一样,这对于跨越了多个八度音阶的声音波形非常有用。

2. CQT变换具有很高的时间分辨率和对于高频段有低的频谱分辨率,而变换毫无疑问是对于低频段的。这和耳蜗基膜对声音波形的变换非常相似。


2.2 Deep Visual Analogy Making

深度视觉类比网络是一个最近提出的神经网络结构,在图像域有着神奇的效果。网络的目标是能够做出如下类比:"A is to B as C is to D"。即,给定A、B、C作为输入我们能够预测出D。一个例子:“新郎对新娘正如国王对皇后”。这个模型所采取的方法是学习输入的embedding (嵌入),如此一来解决这些类比问题就非常简单,例如:线性情况下:

φ(D)-φ(C)≈φ(B)-φ(A)

这个embedding如Figure 1所示。实际上它们的关系不必是线性的,这个关系能够被更多层的神经网络近似,正如我们模型的情况一样。神经网络的可视化如Figure 2所示。



这里我们的目标函数:

 


2.3 Generative Adversarial Networks

生成对抗网络(参见参考文献[2])是最近的一种神经网络结构。这些网络被运用在图像域来创造各种物体的令人十分相信的图片(参见参考文献[1])。它的基本思想是使用一个神经网络作为生成器和使用另一个神经网络作为判别器。这网络在某种意义上是对抗的,生成模型试图模仿一些真实的分布,例如图像,而判别网络试图分类来自真实分布和生成的假的分布的图像。这个过程在Figure 3被清楚地表达了。


 

 

接下来的目标是求解一个极大极小问题:

 

实际上最优化这些网络是非常困难的,需要用到许多tricks来实现。

 

3 Model

这里我们结合了 Deep Visual Analogy Networks (VANs) 和 Generative Adversarial Networks (GANs) 的思想来创建一个能够完成语音转换的模型。VAN在GAN里作为生成模型,而我们GAN的判别器由一个分类器来实现,这个分类器不仅能够辨别真和假的CQT样本,并且能够辨认样本属于哪个说话人和说的是哪一类的词语。这个能够被总结为一个新的极小极大方程:

为了增强分类器对于辨别假单词和假说话人的能力我们将一个batch里的样本的一半取自生成模型,另外的样本均匀地来自不同说话人和单词的组合。我们的代码能够在https://github.com/ShariqM/smcnn上看到,模型参数可以在models/cnn.lua里找到。

 

3.1 Results

结果如Figure 4所示. 虽然模型能够很好地捕捉到说话人的谐波结构,但频率分辨率有点差。这很可能是一个人为的结果由于解码阶段的升采样。这个数据来自仅有1个说话人和4个单词的训练数据集。音频样本能够在下列链接里被听到:

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_red.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_blue.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_green.wav

_ https://dl.dropboxusercontent.com/u/7518467/Bruna/model2/GAN_results/results_white.wav

对于每一个文件,首先出来的是一个真实分布的样本,接着是一个来自生成模型的样本。

 

3.2 Conclusion

我们首先为了转换说话人的音色开发了一个算法。我们的算法能够生成偶尔听起来相似于目标说话人的语音,但工作仍有待完成。训练生成对抗网络已经在实践上证明了非常困难,更多的时间需要花在理解如何更好地最优化这里的Conditional Generative AdversarialNetwork模型。

 

参考文献

[1] Deep generative image models using a laplacian pyramid of adversarialnetworks

[2] Generative adversarial nets

[3] Deep visual analogy-making

[4] Pitch and timbre manipulations using cortical representation of sound


阅读全文
0 0