Fitting the Mel Scale笔记

来源:互联网 发布:c语言 指数 编辑:程序博客网 时间:2024/06/08 07:45

S. Umesh, L. Cohen, and D. Nelson [1999]: ``Fitting the Mel-Scale,'' Proc. IEEE International Conference on Acoust. Speech, Signal Processing, (ICASSP Phoenix, Arizona, USA), Vol. 1, pp. 217-220, March 1999. 读书笔记。

虽然在语音识别和语音编码中大量用到Mel刻度(Mel Scale也称为Mel域),但是国内鲜学者研究Mel刻度的由来。国外大概从1949年持续到本世纪的第一个十年还有这类文章发表。其历史大家可以粗略地参考WIKI有关Mel Scale 的说明

今天要介绍的这篇文章讲述了一种新的Mel的描述方法。并且提出了新颖的观点:Mel Scale未必在1000Hz以下是线性的,它有可能是很多非线性函数的初始阶段;并且声称没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。本人非常喜欢这篇文章的Mel拟合函数,因为及其简单而且无限阶可导,有简单的逆函数。

文章结构

1、介绍

介绍了一些拟合Mel刻度的历史。并且提出没有明显的证据表示Mel Scale应该分成线性部分和指数部分来描述。文章并没有使用Stevens 和Volkman 1940的经典论文表格中的点来做拟合,而是使用该论文频率刻度与Mel刻度关系图上的点来做拟合。

2、拟合曲线

拟合曲线的时候考虑三个频率范围,听力全屏40-12Khz;“线性区域”40-1Khz;“指数区域”1K-12Khz。同时文章提出使用具有更加简单公式:

来描述频率刻度和Mel刻度的关系。

3、有线性和指数区域?

作者分析了独立分析了“线性区域”40-1Khz和“指数区域”1K-12Khz不同拟合公式发现:可能并没有这两个区域。所谓的“线性区域”也许只是某些非线性函数的初始阶段。使用某些非线性函数(非指数函数)能够更好地拟合“指数区域”。

4、频率尺度

作者提出除了1940的数据精度有测量误差外,可能研究者需要根据确切的模型来描述人的听觉,以及产生Mel刻度的物理解释。

5、结论

(完)

0 0
原创粉丝点击