专注语音研究,小白到大神成长之路

来源:互联网 发布:海康威视 无网络视频 编辑:程序博客网 时间:2024/06/06 13:19

我是一名211高校博士,初识语音情感识别研究,从现在起开始记录我的成长经历。

读关于语音情感识别研究进展综述观后感(韩文静)

1.@1维度情感数据库:VAM数据库,Semaine数据库

2.语音情感特征提取

3种类型:韵律学特征,基于谱相关特征和音质特征。

@1韵律:凌驾于语义信号之上的音高,快慢,音长,轻重。

@2谱相关特征:认为是声道形状变化和发声运动之间相关性的体现。

在语音情感识别任务中使用的线性谱特征,一般有:LPC,OSALPC,LFPC

倒谱特征一般有:LPCC,OSALPCC,MFCC.

研究发现倒谱特征的区分能力明显优于线性特征。{但有人证实HMM被用作分类器时提出相反的结论}

@3声音质量特征:共振峰频率及其带宽,频率微扰,振幅微扰,声门参数等。

最佳性能由MFCC,频率微扰和振幅微扰共同组合而成。

语音信号可视为声门激励信号和声道冲激响应的卷积。

@4融合特征

@5基于i-vector的特征:是一项将高维高斯混合模型(GMM)超向量空间映射到低维总变异空间的技术。步骤:1.使用openSMILE提取1584维的声学特征。2.并使用这些特征为自然情感状态生成各自的GMM,继而得到每类情感状态的GMM超向量用于i-vector的生成。3.最后,对应于各个情感状态的i-vector被串连在一起作为支持向量机的输入。

3.语音情感识别算法的研究

最广泛的有HMM,GMM,ANN(人工神经网络),SVM

MLP(muli-layer perception)是语音情感是被中应用最为广泛的一种人工神经网络

基于MLP建立一个OCON(one class in one neural network)网络模型。

4.应用

实时类包括电话服务中心用户紧急程度分拣,驾驶员疲劳检测

较高要求:抑郁症患者情绪跟踪等。

还需解决的方向:能否通过技术手段对训练预料的选择进行系统的指引和帮助?

0 0