Speech Enhancement Generation Adversarial Network

来源：互联网发布：知字的意思是什么编辑：程序博客网时间：2024/06/06 20:35

GAN网络简述

GAN网络于2014年由 Ian Goodfellow教授在论文Generative Adversarial Nets中提出，是一种训练生成式模型的新方法，目前多用于图像分类（以下用图像举例）。
GAN网络包含了两个对抗模型：生成模型（G）输入为带噪图片，输出产生一个看起来像真的图片，迷惑判别模型；判别模型（D）用于判断一个给定的图片是不是真实的图片（包括从数据集里获取的图片和生成网络的输出图片）。在刚开始时，两个模型都是没有经过训练的，两个模型一起对抗训练，生成模型产生一章图片去欺骗判别模型，然后判别模型去判断这张图片的真假，最终两个模型能力越来越强，达到稳态。

另外，GANs一些新的应用在下面这篇博文中有所介绍，都是一些比较新的idea：
https://adeshpande3.github.io/adeshpande3.github.io/Deep-Learning-Research-Review-Week-1-Generative-Adversarial-Nets

GAN网络应用于语音增强

原理概述

1. SEGAN的优点

No recursive operation like in RNNs
It works end-to-end, with the raw audio and no hand-crafted features are extracted
It learns from different speakers and noise types, and incorporates them together into the same shared parametrization.

2. SEGAN网络

GAN网络训练过程

D是一个典型的二分类器，它的输入为real samples或者由G生成的fake samples，输出为0~1之间的概率，1表示输出为真，0表示输出为假，即判别fake samples为0，判别real samples为1。
由于D的改进，使得G网络试图迷惑D网络让其输入fake samples 输出1，从而不断改善自己，尽量生成趋向于1的音频。
G与D相互对抗训练，达到稳态

网络核心目标公式如下：

从上述公式看来，其实就是一个最大最小优化问题，即先优化D，再优化G：
优化D：
优化D
此公式的第一项，得到的结果越大越好，即D(x)越大越好，即判断输出图片为真；第二项是1-D(G(x))越大越好，即D(G(x))越小越好，即当输入为fake samples时，将其判别为假。
优化G：

此公式为越小越好，即D(G(x))越大越好，因为是训练G网络，所以希望能够迷惑D网络，使得输入fake samples 输出1。

更多详细推倒涉及微积分等数学知识，可参照博客：GAN公式的前因后果

训练方法

使用作者提供的训练好的训练集
自己修改参数训练
1. batch=2时，一个epoch大约需要训练3-4小时
2. batch=4时，电脑带不动（显卡1060，显存6G）
  考虑增加内存条或者改进训练方法，简化原始GAN网络

测试情况

测试集为180度双声道声源(经过对代码的改进将单通道改成支持双通道音频)
测试前所有音频需要进行16K的处理，主要用到linux下SOX工具
sox $name -r 16k ../dir
混响较高（600ms）时，音频失真严重
0db效果较差
10db效果一般，有噪声去除，但是分离后，男声失真严重

以上观点主要来自于2017年6月由Santiago Pascual提出的文章：
http://xueshu.baidu.com/s?wd=paperuri%3A%28c7078afd5e78e3a4bfaf81b0202d637f%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1703.09452&ie=utf-8&sc_us=8738122872272647463

改进与研究方向

除了以上的SEGAN外，用于语音增强的新方法还有近两年提出的A FULLY CONVOLUTIONAL NEURAL NETWORK FOR SPEECH ENHANCEMENT 等思想，后续将持续更新，文章链接如下：
http://xueshu.baidu.com/s?wd=paperuri%3A%283bb547de9bc76543c2bf40c20db0f309%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Farxiv.org%2Fpdf%2F1609.07132&ie=utf-8&sc_us=3134936974286209257

阅读全文

0 0