LP-PSOLA算法之（一）语音变速

来源：互联网发布：浙江中控怎么样知乎编辑：程序博客网时间：2024/05/29 08:20

本文实现语音变速的方法是基于线性预测，有人问，时域做变速方法很方便，为何要用线性预测来做？

语音编码，得到每帧信号的lpc系数和基音频率，就能预测出语音。
该方法可算出共振峰等参数，方便做变调的时候，对共振峰进行调整。
通过LP-PSOLA算法，学习基音检测的原理和算法，方便开展更多工作。

一 .概述

1.1 语音变速属语音更改范畴，两方面研究：

1.声学参数，如共振峰频率，基频，主要由声道差异决定。
2.韵律学参数，如说话快慢，节奏，口音不同。

1.2 变速本质：

把语音在时间上缩短或者拉长，而语音的采样频率/基频/共振峰不改变。
这里写图片描述
如图，上半轴表示原始语音，下半轴表示变速后的语音。上半轴大圆点表示每一帧的起始位置，下半轴小圆点表示变速后的每一帧起始位置。
语音时间减少，语速增加，缩短语音帧数fn’比原帧数少，因此要对帧数fn进行插值。
缩短语音每一帧对应的原始信号的时间，并不是原始信号的时刻，因此要对基音周期进行插值。
同样要对线性预测系数进行插值。

二. 语音变速步骤

分帧/基因检测/计算lpc系数。
按照新的语音时长，对帧数fn插值为fn‘。
将ai系数转化称LSF参数，对LSF参数插值。
将插值后的LSF系数重构为1-fn’帧线性预测系数ai’。
用预测系数ai’和基音参数合成语音。

PS. 这里讲一下插值函数Interp1函数的使用：
MATLAB hep:1-D data interpolation (table lookup）
既然有interp1，那一定也有interp2/interp3，interp1用来对一维数组进行插值，但是，interp1也可用用来做二维数组的插值，也是一维一维地处理。