语音合成vocoder(四) aperiodicity参数

来源:互联网 发布:mysql如何添加触发器 编辑:程序博客网 时间:2024/06/10 11:58

基本概念

“aperiodicity” is defined as the power ratio between the speech signal and the aperiodic component of the signal

它是跟混合激励有关的参数,为了获得自然的声音,激励源不能只使用周期信号,也需要包含一些非周期信号。一种典型的非周期信号是噪音。

PLANTINUM[1]

使用excitation signal替换aperiodicity

X(ω)=Y(ω)H(ω)

首先根据F0标出voiced section,然后y2(t)最大的点对应加窗的时间点,使用长度为2T0的Hanning窗。
合成语音的时候直接使用求出的x(t)h(t)进行卷积即可。

D4C[4]

D4C需要计算不同频带对应的功率比。

1.计算群延迟

τgω=dϕ(ω)dω

假设所加窗口的中心点在τ,那么最后求出的群延迟τ(ω,τ)τ有关,使用了一些方法消除了参数τ,也就是最后得到的群延迟跟窗口位置无关。

2.修正参数

这里写图片描述
上一步计算加窗会带来频谱上的失真(上图a),这里进行smooth恢复出来原始的信号。

τgs(ω)=2ω0ω04ω04τg(ω+λ)dλ

τgb(ω)=1ω0ω02ω02τgs(ω+λ)dλ

τD=τgs(ω)τgb(ω)

3.估计band-aperiodicity

中心频率ωc对应的时域信号

p(t,ωc)=F1[w(ω)τD(ω(ωcwl2))]

wl表示窗的长度
pc(t,ωc)=1t0ps(λ,ωc)dλ

其中ps是由功率谱|p|2在时间上按降序排序得到,而且|p|2做了归一化
band aperiodicity可得
ap(ωc)=10log10(pc(2wbw,ωc))

wbw表示窗函数的主瓣宽度。

参考文献

[1].PLATINUM: A method to extract excitation signals for voice synthesis system
[2].D4C, a band-aperiodicity estimator for high-quality speech synthesis

原创粉丝点击