VAD实现 (一) --- 读取语音数据
来源:互联网 发布:网贷中介系统源码 编辑:程序博客网 时间:2024/05/22 00:05
一,什么是VAD
VAD,也就是语音端点检测技术,是Voice Activity Detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点,因为语音中含有很长的静音,也就是把静音和实际语音分离开来,因为是语音数据的原始处理,所以VAD是语音信号处理过程的关键技术之一。它的好坏,直接影响成败,由于技术本身的特殊性,所以在涉及语音信号处理的领域,端点检测技术的应用非常广泛。语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测,把静音和噪声作为干扰信号从原始数据中去除,并且端点检测对于语音识别系统的性能至关重要。
二,VAD的作用
现在流行的语音识别系统大部分,或者是相当一部分都是基于统计和训练的原理所构建的系统,因此对数据来源和训练环境都是很敏感的。在识别的过程中,经常存在实际语音因背景噪声的干扰而与训练失配的情况,实际这也是造成语音识别系统鲁棒性差的一个根本原因(另一个主要的是无法处理非预期的输入),从而导致识别错误,性能下降。哪怕是两段内容上是完全一致的语音信号,可能由于语速不一样,所以语音信号的时间也不相同,音素之间的时间间隙也就不一样,对于时变而非平稳的语音信号来说,其特征就完全不相同了。有音素之间的间隙,也有静音和语音本身的间隙,为了对数据从时间上进行相对的校准,语音端点检测技术就应运而生了,因此端点检测技术可以决定这种校准的相对精度,使得同一内容的特征更趋于相同,当然,一般情况下是不可能完全相同的。大量研究表明,如果环境是安静的环境,没有太多背景噪声,此时语音识别系统的主要错误来源于端点检测技术不精确。
但在实际应用中,不可能没有背景噪声,另外由于麦克风的录制和信号增益也会带来噪声,所以语音识别系统的错误是由多方面影响的,至少包括:端点检测、特征提取、语音模型、声学模型、解码器等多个方面。
假定读取的语音数据是WAV文件格式的数据。
三,WAV数据头结构定义
上面是WAV文件格式的头定义 ,数据定义如下
在该结构之后,就是采样数据了。
下面读取文件代码:
- VAD实现 (一) --- 读取语音数据
- VAD实现 (一) --- 读取语音数据
- VAD实现 (二) --- 数据预处理
- 语音发生检测VAD
- 语音端点检测(voice activity detection,VAD)
- WebRTC之语音活动检测(VAD)算法
- 强噪声下的语音检测 VAD
- VAD实现 (三) --- 算法计算流程与框架
- VAD(静音抑制)
- VAD
- 语音信号处理基础——简易VAD函数
- 端点检测(VAD)技术
- 用AJAX实现从数据库读取数据实现TreeView(一)
- 语音上传(一)
- 实时语音视频通话SDK如何实现立体声(一)
- 第72篇 一对多自由控制语音(三)及PHP MySQL 读取数据
- GPS数据读取与处理(一)
- flume 读取数据存入mysql(一)
- NSIS安装包制作之消除边框、无边框移动、检查重复运行
- 导出SQLite数据库文件并查看
- 反弹高度
- 总结
- SSL 1376——完全背包
- VAD实现 (一) --- 读取语音数据
- Android Studio生成签名文件,自动签名,以及获取SHA1和MD5值
- Web Service Security with Axis2
- V4 .Fragment
- Qualcomm thermal的介绍
- indexOf()用法
- 斐波纳奇
- python模拟登陆
- c++实验4-百钱百鸡问题