如何向非技术人员解释“稀疏傅里叶变换”算法？

来源：互联网发布：淘宝手机比京东便宜编辑：程序博客网时间：2024/06/04 19:03

【伯乐在线导读】：这个问题来自 Quora，下面是来自 Tanooj Luthra 的回复。

让我们来演奏一架想象中的钢琴。

钢琴的每个琴键都对应一个特定频率的声音。例如，一个比较有名的频率是国际标准音A（440赫兹）。当有琴键按下时，你听到的声音是一个完美的正弦波，振荡在440赫兹。同样，中央C对应的频率约为261赫兹声波。

不过，每次只演奏一个音符太单调了，我们来尝试几个音符同时演奏。有趣的是，两个各不相关的声音结合起来，就创造一个全新的独特声音。它不再只是单一的频率，这是两个频率的结合。如果琴键一起按下我们会发现，对应的频率也叠加在了一起。

三个音符组合形成的最终声音信号！

快速傅立叶变换（FFT）可以让我们将这个新的声音解构为原始的频率，从本质上得到这个和弦是由哪些琴键组成的。现在我们退一步，只演奏一个音符，看看这个原始信号及其FFT的示例图。

这幅图中的数字没有曲线形状所代表的意义那么重要。上面图中蓝色表示声音的波形，表示了其幅值相对于时间的关系。它是一个单一的频率，表示只演奏了音符A。FFT变换后，我们得到了一个很有趣的图形，幅值相对于频率的关系。此图中单个波峰表示原始信号中的单一频率，而大部分的频率不存在。前进一点点，在我们的和弦例子中有两个音符C和A，我们的FFT将有两个波峰！一个会出现在相同的位置，而另一个将出现在较低的频率。总体来说，一个信号的FFT将每个“纯”频率相加得到最终的输出结果。

我们给钢琴加一个歌手伴奏。

人的声音频率范围很宽，多种多样的频率组成了多种多样的声音（词语）。正如下面的图片，音频信号可能会非常非常复杂。相应的FFT在一定比例上有成千上万的非零频率（图上的红色曲线将有成千上万不同高度的峰值）。举个例子，即使是一个歌手想发出F音，最终也会产生许多不同的频率，因为人声不是一个理想的乐器。

说出不同词语时的音频信号。显然不像上面的标准音A那样光滑波动！

现在，我们已经有点明白FFT了，现在来看看MIT的稀疏FFT。当我们为钢琴加了歌手伴奏后，我们有一个C和A的和弦以及一个歌手努力维持唱出的F音，然后得到了一个参差不齐的音频信号及其FFT。原本的FFT将计算出每个频率的幅度，但我们也许可以利用这样一个事实，即大部分的频率将集中在C、A和F周围！因此，如果我们只计算组成最终音频信号的三个频率，可以复制出一个足够接近于原音乐乐谱的声音。这就是稀疏FFT在做什么。

这篇论文注意到一个事实，在视频信号中有89％的频率不是必须存在的。只计算11％的频率的稀疏FFT，信号质量不会恶化太多。虽然视频的频率和信号的相关概念更偏向技术性，但是理论同样适用于钢琴和歌手。

0 0