speex源码分析-1-lpc分析

来源:互联网 发布:ubuntu不能输入中文 编辑:程序博客网 时间:2024/06/08 14:48
本文简要地分析一下speex窄带的编码算法


算法实现主要在nb_celp.c这个文件里,看名字,大概可以猜出其它编码框架与g723等算法是极其类似的


在分析前,先来看一下怎么用speex编解码算法


  //初始化编解码器:
void *st;
void *dec;
SpeexBits bits;


st = speex_encoder_init(speex_lib_get_mode(SPEEX_MODEID_NB));
dec = speex_decoder_init(speex_lib_get_mode(SPEEX_MODEID_NB));
speex_bits_init(&bits);

short in_short[160] = {0};
short out_short[160] = {0};
char cbits[200];
int nbBits = 0;
int bitCount = 0;

while(1)
{
lcx_audio_record_read(in_short, sizeof(in_short));//这个不必理会,是笔者封装的waveInXXX windows api,就是读取输入的pcm码(8k 16bit 单声道)

speex_bits_reset(&bits);


speex_encode_int(st, in_short, &bits);
nbBits = speex_bits_write(&bits, cbits, 200);
bitCount+=bits.nbBits;


speex_bits_rewind(&bits);


//speex_bits_read_from(&bits, input_bytes, nbBytes);
speex_decode_int(dec, &bits, out_short);
speex_bits_reset(&bits);


lcx_audio_play_write(out_short, sizeof(out_short));//这个是调用waveOutXXX window api,放音
}


speex的窄带编码算法是基于 8k 16bit 单声道,每帧数据160个采样
speex内部将160个采样点,分成了4个子帧,每个子帧40个(...)


从代码上看,speex代码风格更多地引入了面向对象的设计方式,
带来的结果就是,代码显得更绕了.一些编码参数的设置值,往往不能一眼看出来


先来看
st = speex_encoder_init(speex_lib_get_mode(SPEEX_MODEID_NB));
这个是编码器初始化


speex_lib_get_mode 就是选择speex的编解码器的工作模式,
这里笔者选择了SPEEX_MODEID_NB,就是本文关注的窄带编码算法


#define speex_lib_get_mode(mode) ((mode)==SPEEX_MODEID_NB ? &speex_nb_mode : speex_lib_get_mode (mode))
是这个宏
即,窄带模式下,算法的配置参数取自全局变量 speex_nb_mode


const SpeexMode speex_nb_mode = {
   &nb_mode,
   nb_mode_query,
   "narrowband",
   0,
   4,
   &nb_encoder_init,
   &nb_encoder_destroy,
   &nb_encode,
   &nb_decoder_init,
   &nb_decoder_destroy,
   &nb_decode,
   &nb_encoder_ctl,
   &nb_decoder_ctl,
};
可以看出,这个全局变量包含一系列的回调函数,以及配置项nb_mode
static const SpeexNBMode nb_mode = {
   160,    /*frameSize*/
   40,     /*subframeSize*/
   10,     /*lpcSize*/
   17,     /*pitchStart*/
   144,    /*pitchEnd*/
#ifdef FIXED_POINT
   29491, 19661, /* gamma1, gamma2 */ ?
#else
   0.9, 0.6, /* gamma1, gamma2 */
#endif
   QCONST16(.0002,15), /*lpc_floor*/
   {NULL, &nb_submode1, &nb_submode2, &nb_submode3, &nb_submode4, &nb_submode5, &nb_submode6, &nb_submode7,
   &nb_submode8, NULL, NULL, NULL, NULL, NULL, NULL, NULL},
   5,
   {1, 8, 2, 3, 3, 4, 4, 5, 5, 6, 7}
};


FIXED_POINT 这个是控制代码是否采用定点数缩放来规避浮点数计算,在所有代码中均可忽略.
对算法的理解没有影响,speex编译默认是采用浮点数的(windows版本)


从这个配置项里,大概看出的一些信息是,帧长,子帧长,lpc为10阶,基音周期的搜索是从17-144,以及感知
加权的两个系数分别为0.9和0.6,其它的配置项暂时先不管,会在代码中相应是说明
注意一下子模式,默认被启用的子模式是 nb_submode5
如下
/* 15 kbps high bit-rate mode */
static const SpeexSubmode nb_submode5 = {
   -1,
   0,
   3,
   0,
   /*LSP quantization*/
   lsp_quant_nb,
   lsp_unquant_nb,
   /*Pitch quantization*/
   pitch_search_3tap,
   pitch_unquant_3tap,
   &ltp_params_nb,
   /*Innovation quantization*/
   split_cb_search_shape_sign,
   split_cb_shape_sign_unquant,
   &split_cb_nb,
   QCONST16(.3,15),
   300
};
子模式里包含的回调函数,实际为lsp量化/反量化,
自适应激励编码(pitch_search_3tap)/解码(pitch_unquant_3tap)
split_cb_search_shape_sign固定码本编码
split_cb_shape_sign_unquant固定码本解码


看完这些数据结构,熟悉celpc的朋友,对speex的算法框架恐怕已经心中有数了


接下来,上代码,分析


nb_encoder_init
这个是编码器初始化函数
主要做一些编码器参数的赋值,编码过程中要用到的内存分配等


speex_encode_int 这个函数的名字令人迷惑,它调用nb_encode进行编码.


现在来看nb_encode,即speex的窄带编码函数


首先,将之前一帧信号的激励往前挪,它们将作为当前帧(第一子帧)的自适应码本,以及第二,三,四子帧的自适应码本的一部分
   SPEEX_MOVE(st->excBuf, st->excBuf+st->frameSize, st->max_pitch+2);//lsc 保留历史的 144+2个激励
   
这里笔者回顾一下nb_encoder_init 中的一行内存分配代码:
   st->excBuf = (spx_word16_t*)speex_alloc((mode->frameSize+mode->pitchEnd+2)*sizeof(spx_word16_t));//lsc 目测为冲激响应保存的缓冲区
   st->exc = st->excBuf + mode->pitchEnd + 2;


st->exc指向地址,就用来保存当前帧的激励


保存历史感知加权的解码语音信号,用来计算零输入响应
   SPEEX_MOVE(st->swBuf, st->swBuf+st->frameSize, st->max_pitch+2);//lsc 保留历史的 144+2个感知加权语音信号


高通滤波   
   if (st->highpass_enabled)
      highpass(in, in, st->frameSize, (st->isWideband?HIGHPASS_WIDEBAND:HIGHPASS_NARROWBAND)|HIGHPASS_INPUT, st->mem_hp);//lsc 高通滤波,去除低频噪声
      
接下来,第一步就是lpc分析
计算lpc系数所需要的11个自相关系数,_spx_autocorr
用莱文森德宾递推方法计算出lpc系数 _spx_lpc
再将lpc系数转换成lsp系数(看注释像是用了契比雪夫多项式) lpc_to_lsp


相应的代码就不分析了,可以参考笔者之前对lpc算法以及lpc->lsp转换算法的推导
(g723源码分析系列与g729源码分析系列:
莱文森德宾递推公式证明: http://blog.csdn.net/lsccsl/article/details/6306667 
g723 lpc代码分析: http://blog.csdn.net/lsccsl/article/details/6325006
g729 lpc转lsp代码分析: http://blog.csdn.net/lsccsl/article/details/7448689)
有兴趣的读者,可以自行对speex的lpc模块代码做一个推导,笔者此处不赘述


如前所述,然后进行lsp插值
(前一帧的lsp系数,与当前帧的lsp系数按一定比较,进行插值)做法类似到g723...
lsp_interpolate,函数比较简单,不详细说明了


lsp_enforce_margin 保证lsp系数的稳定性,直观地看,就是让相邻的两个共振峰不要靠得太近
代码上的处理,就是将相邻的两个lsp系数保持一个最小的距离(lsp系数都在单位圆上,实际就是角度值)


插值完的lsp系数再转换成lpc系数保存在 interp_lpc 数组里


将原始的语音信号,通过interp_lpc所表征的系统,进行滤波,
这样就可以得到一个精确的激励:
      /*Compute "real" excitation*/
      SPEEX_COPY(st->exc, st->winBuf, diff);
      SPEEX_COPY(st->exc+diff, in, st->frameSize-diff);//lsc 原始语音拷贝至st->exc
      fir_mem16(st->exc, interp_lpc, st->exc, st->frameSize, st->lpcSize, st->mem_exc, stack);//lsc 逆向滤波,得到残差信号(也就是原始激励:"real" excitation)


计算这组激励的能量:
         spx_word16_t g = compute_rms16(st->exc, st->frameSize);//lsc 计算平均能量


这个能量,将被用做自适应激励的增益系数,在自适应激励编码时,会用到,ol_gain.


至此,完成了lpc的分析的大部分工作,接下去是lsp量化,以及激励编码(同样是两级,自适应激励与固定码本激励)
笔者将在下一节进行分析




                                                      






                                        林绍川 2012.10.29于杭州



































原创粉丝点击