语音处理技术

来源:互联网 发布:东风日产数据有限公司 编辑:程序博客网 时间:2024/06/14 00:13

概要

语音的物理基础主要有音高、音强、音长、音色,这也是构成语音的四要素。

音高指声波频率,即每秒钟振动次数的多少;

音强指声波振幅的大小;

音长指声波振动持续时间的长短,也称为"时长";

音色指声音的特色和本质,也称作"音质",与语音的波形有关.

语音处理技术

静音检测

语音活动检测(Voice Detect Activity)

在用户没有讲话时,就没有语音分组的发送,从而可以进一步降低语音比特率。当用户的语音信号能量低于一定门限值时就认为是静默状态,也不发送语音分组。当检测到突发的活动声音时才生成语音信号,并加以传输。运用这种技术可以节省50%的带宽。

短时能量分析和过零率分析作为语音信号时域分析中最基本的方法.

根据语音的统计特性,可以把语音段分为清音、浊音以及静音(包括背景噪声)三种。

浊音的能量较大,过零率较小;清音的能量较小,过零率较大。静音能量和过零率都很小。

短时平均过零数可以用来区分清音和浊音。发浊音时,语音能量约集中于3kHz以下。而发清音时,多数能量集中在较高的频谱上。浊音具有较低的平均过零数,而清音时具有较高的平均过零数.

对语音信号,浊音的过零率较小,清音的过零率较大,在静默期,若存在背景噪声,则过零率较大,若不存在背景噪声,则过零率较小。一般的经验数据是:当采样频率为8 000Hz时,对一个10 ms的语音帧,清音的过零率大于49,浊音的过零率小于14。

对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;

短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来,就可以检测出语音段(清音和浊音)及静音段。

 

 

 
 
 
 
 
0 0
原创粉丝点击