LP-PSOLA算法之(一) 语音变速

来源:互联网 发布:浙江中控怎么样知乎 编辑:程序博客网 时间:2024/05/29 08:20

本文实现语音变速的方法是基于线性预测,有人问,时域做变速方法很方便,为何要用线性预测来做?

  1. 语音编码,得到每帧信号的lpc系数和基音频率,就能预测出语音。
  2. 该方法可算出共振峰等参数,方便做变调的时候,对共振峰进行调整。
  3. 通过LP-PSOLA算法,学习基音检测的原理和算法,方便开展更多工作。

一 .概述

1.1 语音变速属语音更改范畴,两方面研究:

1.声学参数,如共振峰频率,基频,主要由声道差异决定。
2.韵律学参数,如说话快慢,节奏,口音不同。

1.2 变速本质:

把语音在时间上缩短或者拉长,而语音的采样频率/基频/共振峰不改变。
这里写图片描述
如图,上半轴表示原始语音,下半轴表示变速后的语音。上半轴大圆点表示每一帧的起始位置,下半轴小圆点表示变速后的每一帧起始位置。
语音时间减少,语速增加,缩短语音帧数fn’比原帧数少,因此要对帧数fn进行插值。
缩短语音每一帧对应的原始信号的时间,并不是原始信号的时刻,因此要对基音周期进行插值。
同样要对线性预测系数进行插值。

二. 语音变速步骤

  • 分帧/基因检测/计算lpc系数。
  • 按照新的语音时长,对帧数fn插值为fn‘。
  • 将ai系数转化称LSF参数,对LSF参数插值。
  • 将插值后的LSF系数重构为1-fn’帧线性预测系数ai’。
  • 用预测系数ai’和基音参数合成语音。

PS. 这里讲一下插值函数Interp1函数的使用:
MATLAB hep:1-D data interpolation (table lookup)
既然有interp1,那一定也有interp2/interp3,interp1用来对一维数组进行插值,但是,interp1也可用用来做二维数组的插值,也是一维一维地处理。

用框图表示流程:

这里写图片描述

三. MATLAB仿真结果

这里写图片描述
说明: 注意横坐标,原始信号得时间长度大概为2.5秒,速度放慢一倍,语音长度变为5秒,在相同采样频率fs = 8000Hz下,语音速度就变慢了。

参考文献:

[1] 宋知用. Matlab在语音信号分析与合成中的应用[M]. 北京:北京航空航天大学出版社:2013.

原创粉丝点击