语音模型

来源：互联网发布：知乎美国大选编辑：程序博客网时间：2024/05/21 09:31

1 语音生成系统
    发声器官：声带，声道
    声带：声音的激励，开启闭合一次形成浊音的激励脉冲，其频率为60-450hz，也称为基音频率
    声道：从声带到嘴唇的呼吸通道，声音的信道，决定一个人的声纹
    人声按照声带振动与否，分为浊音与清音
人声发音原理：
a 声带开启与闭合，产生一定频率的激励信号，通过声道，产生浊音
b 声带不振动，由声道（包括口腔、嘴唇等）变化产生声音，并不是声带振动引起的声音，为清音

2 语音生成模型
2.1 语音激励模型
a 浊音激励模型，详细公式见网址：http://www.cnblogs.com/tanglei-young/archive/2013/03/18/speech.html
声带不断的张开与关闭，产生了间歇的脉冲波，也就是浊音的激励信号。其时域波形为以基音周期为周期的斜三角脉冲波
b 清音的激励模型
发清音时，声道发生形状变化形成的声音，可以用白噪声作为激励。
单独的将语音激励分成清音和浊音两种是不全面的，很多时候是清音与浊音混起来之后的混合激励

2.2 声道模型
a 元音：激励顺利的通过声道，产生元音，要素有两个，一是声带振动，二是气流通过口腔、鼻腔不受阻（不同的元音是通过舌、唇的调节而发出不同的声音）
b 辅音：激励通过声道时，声道发生变化发出的声音为辅音。这里要素也有两个，一是与声带振动与否没关系，二是气流通过口腔时受到阻碍（即声道发生变化）。

声道可以看成一个谐振腔，声道模型可以看成是一个共振峰模型，共振峰就是谐振腔中的谐振频率。谐振腔可以改变原本语音的频谱特性，在谐振频率上能量加强，其他频率上能量衰弱，有一定的滤波作用。能够决定元音的音质，也反映的声腔的频率特性。
一般元音，可以用前三个共振峰去表示，而对于辅音、鼻音等则需要至少5个共振峰去表示。

一般元音可以用全极点模型来模拟，因为元音发音的口腔相对稳定，一个音的后半部分具有一定的可预测性，其模型传输函数见上面的网址。
而辅音等则需要零极点模型来进行模拟，因为辅音或者鼻音等发音时，口腔会带来一定的突变，因此，需要零极点模型去进行模拟，详细公式见上面的网址。

0 0