麦克风阵列设计

来源:互联网 发布:最新网络兼职 编辑:程序博客网 时间:2024/04/28 14:40

    语音识别准确率反映在ASR上,ASR准确率一方面依赖于语音训练集和训练模型,另一方面依赖于语音信号获取的质量。这里主要讨论获取到的语音质量对ASR的影响。以此来指导麦克风阵列的设计。

这里列摘抄一句话,原文的大意是说,信噪比(SNR)每提高4~5dB,则语音系统的准确率将获得50%的提高,,即人声信号功率除以噪声信号功率。

since every 4 - 5dB improvement of the Signal to Noise Ratio (SNR)may raise the speech intelligibility by 50% [1]

另外再来看一个截图:


该图反映了SNR和和单词错误率之间的关系,从这篇文章可以看到在SNR达到20dB时,准确率超过90%基于DNN的模型训练方法以及大量的语音训练集,也许不到10dB就可以达到这一指标。

以经典的阵列信号处理模型来看,8麦克阵列的增益在12dB左右,加上空域信号处理算法,增益会继续增加。这样的话在外界噪声和说话人声音一样大,甚至比说话人声音大一些的情况下,ROKID识别率应该在90%以上,算上混响等非理想情况这一性能会有所下降,但是aec算法可以处理混响这个问题,所以在人声和噪声差不多大小的情况下,信噪比应该可达15dB左右。信噪比的一个直观感受就是,在喊若琪不灵时,提高音量就可以了,因为输入信号的功率增加了,这将导致SNR变大。

电磁波按传播距离的四次方衰减,切频率越高衰减越厉害,这就反映在探测灵敏度这个信号处理指标上,即在没有噪声的情况下,多大的声压可以得到正确的ASR结果;

所以在信号处理的各个环节,信噪比就变成了至关重要的一个指标,以下基于麦克风阵列的讨论就是讨论什么样的阵列能够得到最优信噪比。

线阵模型

线阵模型就是麦克风在同一条直线上。下面绘制的是8麦克,间距1cm时的直角坐标和极坐标图,在直角坐标系中,横坐标是-90度到90度,纵坐标是阵列增益方向图,最高点在横坐标是0度位置,相比第二个峰值约大13dB左右。由极坐标同样可以看出,一圈是360度,从内到外同心圆是增益等高线。从图中依然可以看到增益,另外还有一个指标也可以在这两张图体现出来,即空间分辨率。从直角坐标可以看出约-8~+8度,从这个角度进来的信号相对于其它角度进来的信号会全部被放大约10dB,如果这个角度有多个人声或者离人很近的地方有噪声,则会降低SNR解决方法是根据使用场景设计合适的空间角分辨率。



阵元对天线方向图的影响


这张图显示3个麦克可达到的SNR6dB左右,由于其空间分辨率低,会使这一指标继续下降。此处8麦克空域混叠,导致增益下降。加上各种信号处理算法,估计不会超过8dB,极坐标如下。


阵元间距对方向图的影响:


可以看到,图中d的单位是米,即3阵元间距在0.75cm1cm,以及1.5cm时增益图。即间距越大,可达到的增益越大,但其空间分辨率变低。增益差值超过一倍。

阵元对频率影响

综合来说,3麦克需要考虑麦克风之间间距,输入信号空间分辨率,以及使用场景间距越大其指向的方向信号增益会越大,但空间分辨率随之降低,线阵模型可得到增益约6dB左右圆阵增益也可达到这个指标,另外,圆阵收集到的信息较多,在不太容易丢失有效信号的同时会降低信噪比。线阵指向性很好,采用线扫方法,可以增加覆盖范围,但同时增加了计算量。

在多麦克的圆阵情况下,如果能在麦克风中间放一个麦克风,除了将中心增益(非最高)提高外,还在任意一个方向上提供了线阵处理模型,在运算量跟得上的情况下,可以得到很好SNR和声音方向信息。如果需要进行基于平面波模型的空间位置定位以及跟踪(即说话距离麦克风的俯仰角,方位角以及直线距离),则采用二维面阵模型最为合适,在近场模型时,线阵和圆阵都可以用来定位跟踪目标。

阵元对频率的影响

从500Hz到2KHz,差别不大,但是高频信号的指向性会强,这可以通过信号处理人为提高高频信号增益弥补部分损失。

面阵模型:

假设x,y组成一个探测平面,xz组成一个探测平面。



纵坐标依然是dB单位,从这张图可以看出在面阵的最中心,其增益是最高的,这里是沿着坐标轴切割出来的一半,可见以十字架方向上增益较高,且在十字交叉处有最大值。这是平面阵列的方向图,和线阵相比,这种面阵可以用来定位目标(近场模型)。

如果使用一个面的面阵,到这里,方向图就定了。如果在xz上还有一个面阵(两面可定远场模型),则其方向图如下:


圆阵模型:

下图是8阵元的方向图:

从该图可以看出对称性,即方向图按俯仰角和方位角对称,这另外还可以看出,在不同的方位角和俯仰角上,得到的增益并不一样。xy平面上的有色线条是等高线,同样的颜色纵坐标值相等。


在圆阵的最中间,增益并非最大,这和面阵是有区别的。另外,圆阵在其面内是有效的,即在和圆阵平面法线的夹角超过130度时,圆阵的优点将会大打折扣。上图的另一个角度来看,就如下图。


球坐标显示模型如下:



可见中间并不是增益最大的位置,相反,增益比上面的圆环小约10dB


以下是3阵元得到的方向图:其增益比8阵元小。



总结

综合来说,3麦克需要考虑麦克风之间间距,输入信号空间分辨率,以及使用场景间距越大其指向的方向信号增益会越大,但空间分辨率随之降低,线阵模型可得到增益约6dB左右圆阵增益也可达到这个指标,另外,圆阵收集到的信息较多,在不太容易丢失有效信号的同时会降低信噪比。线阵指向性很好,采用线扫方法,可以增加覆盖范围,但同时增加了计算量。

在多麦克的圆阵情况下,如果能在麦克风中间放一个麦克风,除了将中心增益(非最高)提高外,还在任意一个方向上提供了线阵处理模型,在运算量跟得上的情况下,可以得到很好SNR和声音方向信息。如果需要进行基于平面波模型的空间位置定位以及跟踪(即说话距离麦克风的俯仰角,方位角以及直线距离),则采用二维面阵模型最为合适,在近场模型时,线阵和圆阵都可以用来定位跟踪

0 0
原创粉丝点击