专注语音研究，小白到大神成长之路

来源：互联网发布：海康威视无网络视频编辑：程序博客网时间：2024/06/06 13:19

我是一名211高校博士，初识语音情感识别研究，从现在起开始记录我的成长经历。

读关于语音情感识别研究进展综述观后感（韩文静）

1.@1维度情感数据库：VAM数据库，Semaine数据库

2.语音情感特征提取

3种类型：韵律学特征，基于谱相关特征和音质特征。

@1韵律：凌驾于语义信号之上的音高，快慢，音长，轻重。

@2谱相关特征：认为是声道形状变化和发声运动之间相关性的体现。

在语音情感识别任务中使用的线性谱特征，一般有：LPC,OSALPC,LFPC

倒谱特征一般有：LPCC,OSALPCC,MFCC.

研究发现倒谱特征的区分能力明显优于线性特征。{但有人证实HMM被用作分类器时提出相反的结论}

@3声音质量特征：共振峰频率及其带宽，频率微扰，振幅微扰，声门参数等。

最佳性能由MFCC，频率微扰和振幅微扰共同组合而成。

语音信号可视为声门激励信号和声道冲激响应的卷积。

@4融合特征

@5基于i-vector的特征：是一项将高维高斯混合模型（GMM）超向量空间映射到低维总变异空间的技术。步骤：1.使用openSMILE提取1584维的声学特征。2.并使用这些特征为自然情感状态生成各自的GMM，继而得到每类情感状态的GMM超向量用于i-vector的生成。3.最后，对应于各个情感状态的i-vector被串连在一起作为支持向量机的输入。

3.语音情感识别算法的研究

最广泛的有HMM,GMM,ANN(人工神经网络)，SVM

MLP（muli-layer perception）是语音情感是被中应用最为广泛的一种人工神经网络

基于MLP建立一个OCON（one class in one neural network）网络模型。

4.应用

实时类包括电话服务中心用户紧急程度分拣，驾驶员疲劳检测

较高要求：抑郁症患者情绪跟踪等。

还需解决的方向：能否通过技术手段对训练预料的选择进行系统的指引和帮助？

0 0