语音处理技术

来源：互联网发布：东风日产数据有限公司编辑：程序博客网时间：2024/06/14 00:13

概要

语音的物理基础主要有音高、音强、音长、音色，这也是构成语音的四要素。

音高指声波频率，即每秒钟振动次数的多少；

音强指声波振幅的大小；

音长指声波振动持续时间的长短，也称为"时长"；

音色指声音的特色和本质，也称作"音质",与语音的波形有关.

语音活动检测（Voice Detect Activity）

在用户没有讲话时，就没有语音分组的发送，从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态，也不发送语音分组。当检测到突发的活动声音时才生成语音信号，并加以传输。运用这种技术可以节省50%的带宽。

短时能量分析和过零率分析作为语音信号时域分析中最基本的方法.

根据语音的统计特性，可以把语音段分为清音、浊音以及静音（包括背景噪声）三种。

浊音的能量较大，过零率较小；清音的能量较小，过零率较大。静音能量和过零率都很小。

短时平均过零数可以用来区分清音和浊音。发浊音时，语音能量约集中于3kHz以下。而发清音时，多数能量集中在较高的频谱上。浊音具有较低的平均过零数，而清音时具有较高的平均过零数.

对语音信号，浊音的过零率较小，清音的过零率较大，在静默期，若存在背景噪声，则过零率较大，若不存在背景噪声，则过零率较小。一般的经验数据是：当采样频率为8 000Hz时，对一个10 ms的语音帧，清音的过零率大于49，浊音的过零率小于14。

对于清音，由于其能量较小，在短时能量检测中会因为低于能量门限而被误判为静音；

短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来，就可以检测出语音段（清音和浊音）及静音段。

0 0