Speech Enhancement Generation Adversarial Network

来源:互联网 发布:知字的意思是什么 编辑:程序博客网 时间:2024/06/06 20:35

GAN网络简述

  • GAN网络于2014年由 Ian Goodfellow教授在论文Generative Adversarial Nets中提出,是一种训练生成式模型的新方法,目前多用于图像分类(以下用图像举例)。
  • GAN网络包含了两个对抗模型:生成模型(G)输入为带噪图片,输出产生一个看起来像真的图片,迷惑判别模型;判别模型(D)用于判断一个给定的图片是不是真实的图片(包括从数据集里获取的图片和生成网络的输出图片)。在刚开始时,两个模型都是没有经过训练的,两个模型一起对抗训练,生成模型产生一章图片去欺骗判别模型,然后判别模型去判断这张图片的真假,最终两个模型能力越来越强,达到稳态。

另外,GANs一些新的应用在下面这篇博文中有所介绍,都是一些比较新的idea:
https://adeshpande3.github.io/adeshpande3.github.io/Deep-Learning-Research-Review-Week-1-Generative-Adversarial-Nets

GAN网络应用于语音增强

原理概述

1. SEGAN的优点
  • No recursive operation like in RNNs
  • It works end-to-end, with the raw audio and no hand-crafted features are extracted
  • It learns from different speakers and noise types, and incorporates them together into the same shared parametrization.
2. SEGAN网络

GAN网络训练过程

  • D是一个典型的二分类器,它的输入为real samples或者由G生成的fake samples,输出为0~1之间的概率,1表示输出为真,0表示输出为假,即判别fake samples为0,判别real samples为1。
  • 由于D的改进,使得G网络试图迷惑D网络让其输入fake samples 输出1,从而不断改善自己,尽量生成趋向于1的音频。
  • G与D相互对抗训练,达到稳态

网络核心目标公式如下
公式
从上述公式看来,其实就是一个最大最小优化问题,即先优化D,再优化G:
优化D:
优化D
此公式的第一项,得到的结果越大越好,即D(x)越大越好,即判断输出图片为真;第二项是1-D(G(x))越大越好,即D(G(x))越小越好,即当输入为fake samples时,将其判别为假。
优化G:
G
此公式为越小越好,即D(G(x))越大越好,因为是训练G网络,所以希望能够迷惑D网络,使得输入fake samples 输出1。

更多详细推倒涉及微积分等数学知识,可参照博客:GAN公式的前因后果

训练方法

  • 使用作者提供的训练好的训练集
  • 自己修改参数训练
    1. batch=2时,一个epoch大约需要训练3-4小时
    2. batch=4时,电脑带不动(显卡1060,显存6G)
      考虑增加内存条或者改进训练方法,简化原始GAN网络

测试情况

  • 测试集为180度双声道声源(经过对代码的改进将单通道改成支持双通道音频)
  • 测试前所有音频需要进行16K的处理,主要用到linux下SOX工具
    sox $name -r 16k ../dir
  • 混响较高(600ms)时,音频失真严重
  • 0db效果较差
  • 10db效果一般,有噪声去除,但是分离后,男声失真严重

以上观点主要来自于2017年6月由Santiago Pascual提出的文章:
http://xueshu.baidu.com/s?wd=paperuri%3A%28c7078afd5e78e3a4bfaf81b0202d637f%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1703.09452&ie=utf-8&sc_us=8738122872272647463

改进与研究方向

除了以上的SEGAN外,用于语音增强的新方法还有近两年提出的A FULLY CONVOLUTIONAL NEURAL NETWORK FOR SPEECH ENHANCEMENT 等思想,后续将持续更新,文章链接如下:
http://xueshu.baidu.com/s?wd=paperuri%3A%283bb547de9bc76543c2bf40c20db0f309%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1609.07132&ie=utf-8&sc_us=3134936974286209257