基于核磁共振成像声道测量的言语生成研究

来源:互联网 发布:大学生分期购物软件 编辑:程序博客网 时间:2024/06/08 01:16

语音是人类之间信息交流的重要方式之一。为了更有效地将这种信息交流方式植入机器,使机器拥有像人类一样的口语交流机制和系统构成,我们首先需要对人类的言语生成机制进行考察,理解人类言语生成的过程。事实上,为了产生自然语音,人类的言语生成在很大程度上需要不同发音器官的共同运动,将声道形成不同的形状来改变空气与腔体的共振,进而生成多种多样具有语音质量的声音。因此,对人类发音过程中声道形状的观测,将有助于我们理解人类言语生成过程,揭示人类言语生成机理。

1. 声 道

言语生成的生理基础是发音器官,主要包括三部分:呼吸器官,振动器官以及调音器官。呼吸器官主要是由肺(Lungs)组成,呼吸器官是发音的能源;振动器官是由喉头(Larynx)和声带(Vocal Folds)组成,振动器官用来产生声源;调音器官则是由声门(Glottis)以上到唇前庭(Labial Vestibule)之间的腔体,即声道(Vocal Tract)和可运动的发音器官组成,如图1所示。发音器官通过运动来改变声道的形状,从而使得空气与腔体的共振发生改变。


这里写图片描述
图1 人体声道中矢面结构图

振动器官的核心是隐藏在喉头中的声带,其向上连接着咽喉,向下连接着气管。声带是两片复杂的具有分层结构的振动器官。根据不同的研究目的,可以将声带软组织层分为五层、三层或者两层。五层为:皮膜、表层、中层、深层和肌肉。三层分为:粘膜层(上皮细胞和固有膜的外层)、韧带层(固有膜的中层和深层)和声带肌肉层(甲杓肌)。两层分为:覆盖层(上皮细胞、固有膜的外层和中层)和声带主体(固有膜的深层和声带肌)。两片声带之间的通路叫做声门。声门最初在不发音的时候是紧闭着的。当突然被气流冲开的时候会发出破裂的声音,比如咳嗽;在正常呼吸的过程中,声门是打开着的,气流畅通;在窃窃私语的时候,声门前半部分关闭而后半部分靠近;在做准周期振动的时候,声门是闭合的。

调音器官主要有:上唇、下唇、上齿、下齿、齿龈、硬腭、软腭、舌尖、舌面、舌根、鼻腔、咽腔等。上唇和下唇可用于发双唇塞音等。上齿和下唇可以用于发唇齿音。舌尖、舌面和舌根同齿龈、硬腭和软腭相配,常常可以用于发舌尖齿龈音、舌面和舌根塞音、塞擦音等。舌面的高低和双唇的配合常常可以用于发圆唇音和展唇的各种元音。软腭和双唇、舌尖、齿龈相配合可以用于发双唇鼻音、前鼻音和后鼻音。

2. 声道分支

喉腔(Laryngeal Cavity)是声道的一个小段(如图2黄色部分),从解剖结构上看是由两个段结构所组成的,分别是:喉室(Ventricles)和喉前庭(Vestribular)。喉室(或称为Morgagni’s Sinus)对应着声门和上声带(或称为Ventricular Fold),而喉前庭形成了一段狭窄的管道,联通着喉室的和咽腔的底部。喉腔在形态上可以看做是一个脖子较长的赫姆霍兹共鸣器。喉室位于声门的正上方,是声道的一个短的组成成分。通常情况下,喉管(Larynx Tube)在声学建模中都被看做是一个简单的直管,主要是因为喉室很短而经常被忽略。

早先的一些关于元音的研究当中,研究者从男性歌唱的元音中发现了3kHz处会出现一个特殊的共振峰(Formants)。这个共振峰在所有元音中都比较稳定,研究者认为该共振峰与喉腔有关,喉腔在声道的共鸣特性中扮演着一个独立的共鸣器,产生了该共振峰[1]。在西方的歌唱方式中,喉腔的共鸣特性会得到加强,因此被称作为“歌峰”(Singing Formant)[2] [3]。

还有学者对喉腔的共鸣特点进行了声学上的分析和仿真[4] [5]。他们在真实的声道上进行声学仿真(Simulation),结果显示出:喉室和喉前庭一起作为一对与声道相对独立的部分,两者都会产生一个独立的共振峰,其结果与赫姆霍兹共鸣器的结果一致。此外,喉腔的共鸣模式正好与声带的振动保持一致,当声带关闭的时候该共振峰出现在语音中,当声带打开的时候该共振峰消失[6]。在真实的元音语音信号中,也可以观测出喉腔的共鸣在一个声门周期内时隐时现,这样的发现可以被作为一种新的测量声门开合的方式[7]。

梨状窝(Piriform Fossa),这个词是由以前的一些医生命名的,“Piriform”一词通常是描述身体中某个部分的形状像梨一样。当使用喉腔镜喉腔部分进行观测时,梨状窝的形状就看起来像梨一样(如图2红色部分)。在通常情况下,梨状窝是一个空腔,但当人在吞咽食物的时候,梨状窝会时不时的被液体填满。在多数关于声道的研究中,由于X光图像中很难观测到梨状窝,所以梨状窝都经常不被提及或者讨论研究。Chiba和Kajiyama首先发现了这个腔体,并在声道的模式图中将之描述成为声道的两个分支,但是并没有在计算声道的传递函数时候考到这两个分支[8]。随着Fant对梨状窝的声学效果进行了研究,后来许多研究者对梨状窝的声学特性也展开了相关的研究[9]。

Dang和Honda获取声道的三维数据,并利用实验对象和物理模型对梨状窝的共鸣特性进行了研究[10]。当将水注入梨状窝里面的时候,发现位于4kHz到5kHz的零点消失,由此证明了梨状窝的声学影响是在4kHz到5kHz处产生反共振峰。同时,左右梨状窝在尺寸上显示出不对称性,而且不对称性的程度取决于不同的人。当左右梨状窝显示出较大的不对称性时候,在元音的频谱中会有梨状窝所产生的两个零极点[11],而左右梨状窝的尺寸一致时候梨状窝只产生一个零极点。此外,Dang和Honda观测到另外一个不同的特点[10]。当一边的梨状窝注满水后,一对零极点转移到较高的频率并伴随着幅度衰减。然后,另外一个零极点出现在类似的频率上。这也许暗示着一个零极点是由一端的梨状窝产生而另外的一个零极点是由左右梨状窝交互产生的。

齿间空间(Inter-dental Space)是口腔里面由上下齿形成的两边对称的区域(如图2绿色部分)。由于舌位在不同的元音中的位置不同,齿间空间也会随着元音的不同而不同,对于一些低元音而言(例如/a/和/o/等)齿间空间与口腔融为一起,对于一些高元音而言(例如/i/和/(s)i/)等,齿间空间较长并近似于均匀管。Honda等提议齿间空间与口腔的隶属关系会发生改变,因为在从元音/a/过渡到元音/i/的过程中,齿间缝隙会由口腔一个副腔体变为独立的声道分支,在元音到元音的转移过程中会观测到频谱的一次跃变[12]。


这里写图片描述
图2三维声道模型侧视图。黄色标记的是喉腔,红色标记的是左右梨状窝,蓝色标记的是会厌沟,绿色标记的是左右齿间空间。

3. 声道形状观测手段

由于声道在人体内部,不容易被观测到,这给声道研究带来了一定的技术困难。早期,Edholm等曾经用往尸体的鼻腔灌膜的方法来获得鼻腔形状[9]。Fant 和Ladefoge也曾用这种方法来测量发音人的口腔形状[9],但这种方法是有局限性的。后来随着成像技术的发展,X光摄像、超声摄像(Ultrasound)以及核磁共振成像(Magnetic Resonance Imaging, MRI)等技术都被发明出来,于是声道的测量也随之进入了一个新的研究阶段。

3.1 X光摄像技术

早在1907年,Brath和Grunmach就使用了静态X光照进行语音学研究。1942年,日本的千叶勉和梶山正登发表了专著《元音的性质》,这是现代言语声学理论的经典先驱之作[8]。他们结合X光摄线、腭位图和喉镜测量了声道形状,提出元音的声学特性决定于声道形状,第一次计算出共振峰频率,指出元音的声学特性决定于声道形状[8]。在这之后,瑞典的方特(Fant)也分析了大量的X光数据,建立了影响深远的言语生成理论。随后的Ohman和Stevens也拍摄了相当数量的X光录像,追踪录像中各个发音器官和组织结构的运动轨迹,考察发音机制的动态特性,且特别关注舌体各个部位以及喉部附近的运动轨迹。

X光摄像技术的缺点在于软组织结构很难被观测到,这是因为骨结构的强烈成像模糊黯淡了软组织部分。而且,随着过度曝光的安全问题被关注,如今X光摄像技术很少被用来收集人类的声道数据。

3.2 超声成像技术

人体组织和脏器具有不同的声阻抗,声波在其界面上会发生反射,用仪器接收反射的回波,检出其中所携带的有关信息,经处理后得出来其中的病理学信息和形成影像,这就是超声成像技术。

超声波为非电离辐射,在诊断用功率范围内,经常反复使用对人体无伤害,而且超声对软组织的鉴别力较高,成像速度快,可进行实时成像。

目前超声成像利用更多的声学参数作载体,以获取更多地生理、病理信息:通过数字化等途径,努力提高声像图质量,使其能显示更微细的组织结构。中国已能够独立地开发生产彩超和具有多普勒功能的双功B超。批量生产的探头品种有一维阵、凸阵、相控阵、机械扇扫探头,其中一维阵以64阵元居多,凸阵以R40和R60较多,频率范围从2.5MHz至10MHz。超声成像技术被广泛应用在对发音器官,特别是舌头运动观测的研究。

3.3 核磁共振成像技术

人体组织中含有大量的水,当人体中水的氢质子产生核磁共振时,其共振信号反映了受检体的氢质子密度。用这种共振信号来重建图像,就会得到人体的质子密度分布图像。由于病变组织或器官的质子密度分布图像不同于人体正常情况下的图像,所以磁共振成像(Magnetic Resonance Imaging, MRI)成为一种新的检测工具,它由磁体、磁共振波谱仪、数据处理和图像重建三大基本部分组成。它的基本原理来自于1964年美国学者Bloch和Purcell的发现。在外磁场的作用下,某些绕主磁场(外磁场)运动的自旋质子(包括人体中的氢质子)在短暂的射频电波作用下,进动角增大,当射频电波停止后,那些质子又会逐渐恢复到原来的状态,并同时释放与激励波频率相同的射频信号,这一物理现象被称为核磁共振。然后通过外加梯度磁场检测发出的射频信号即可得知构成这一物体原子核位置和种类,据此可以绘制出物体内部的结构图像。核磁共振成像技术最大的优点在于其可以获取人体任何部位的切面图,而不接触人体且对人体不造成任何影响。

当然,核磁共振成像也有局限性。如在言语生成相关研究中,核磁共振成像扫描时间比较长,特别是在图像分辨率高的时候,需要发音人长时间保持在一个发音动作,约从30多秒到几分钟。这么长的时间,发音动作会不太自然,容易发生微动偏移,导致图像模糊。而且发音人会有换气的需要,这样发音器官也会有额外的动作,造成伪影。为了解决这个问题,1996年,Masaki提出一种基于中同步采样发(Synchronized Sampling Method, SSM)的cine-MRI [13],用发音人重复发音的方法来减少每次发音所需要的持续时间。发音人可以发某一个持续元音若干次(这取决于扫描的精度,一般需要30多次,每次持续3秒),每次都尽量保持相同的发音动作。计算机自动把多次扫描的结果配准,就可以得到高分辨率的声道立体形状。此外,使用核磁共振成像还有些其他不足之处,如发音人需要仰卧也就是躺着说话,由于重力作用,舌位会略有后移,喉部也稍变窄。以及核磁共振成像过程中,发音人需要加以适应较大的背景噪声等。

尽管伴随着一些局限性,作为一个强大的声道测量工具,核磁共振成像技术已经被广泛使用于揭示人类言语生成机理的研究中。

4. 基于核磁共振成像声道测量研究

Baer首次用核磁共振成像技术测量了人体声道的三维形状,实验采集了两位男性实验对象持续发10个元音时候的中矢面、冠状面和平行面的三维核磁共振成像图片,同时记录了声音信号。Baer的研究中详细讨论声道的面积函数、声道长度、平行面的宽度与侧面的宽度的关系、平行面的宽度与面积的关系等。Baer的研究具有很重要意义,为后面的许多研究者利用核磁共振成像仪器研究声道的特征奠定了基础。但是,由于当时设备的所限,Baer的图片比较模糊,存在较大的测量误差[14]。

关于核磁共振成像的声道测量研究一方面涉及不同的年龄。Yang和Kasuya第一次利用核磁共振成像测量不同年龄段的实验对象的声道,分别是小孩、成年女性和成年男性[15]。Yang和Kasuya利用核磁共振成像测量了三男三女持续发日语五个元音的声道形状,分析不同人之间的前后腔体,认为后/前腔的体积(Back/front Cavity Volume)和声道的长度可以作为人与人之间的个性差异的一个重要特征[16]。核磁共振成像测量声道数据是一件耗时耗力的工作,数据采集比较困难。即便如此,也有人对大量的实验对象的声道数据进行了分析。Vorperian等对人在成长过程中声道的变化进行研究,实验涉及到63个儿童和12个成年,声道的区域(口腔/后腔)和声道方向的比值(横向对纵向)确定了声道的生长模式[17]。

声道的分支(鼻腔、梨状窝、会厌沟等)是声道的重要组成部分,利用核磁共振成像对声道分支的研究一直是一个研究热点。Dang和Honda对不同的实验对象发鼻音/m/和/n/的鼻腔和声道形状进行了核磁共振成像测量,并重构了鼻腔的三维形状,提出了准确的计算模型[18]。Dang和Honda随后用机械模型、生体实验以及计算模型等方法首次严谨地证明了梨状窝在人的言语生成及个性化中的作用[10]。Takemoto和Honda等利用一个成年的男性的实验对象发日语五个元音的三维声道数据研究喉腔在声道共振方面的作用,证明了喉腔生成第四共振峰[19]。此外,Takemoto还利用时域有限差分法讨论喉腔、声道的其他分支(梨状窝、会厌沟、齿间空间)等对于声道共鸣的作用[5]。

基于核磁共振成像的声道测量还被大量用于有关语言的研究,例如英语[20],德语[21],日语[4] [5] [19],法语[22]等等。Story年对英语的元音的三维声道形状和面积函数进行了系统、全面的测量和分析[20]。Takemoto利用一个实验对象发日语五个元音的动态三维和静态三维声道数据进行对比,发现静态情况舌头等受重力的影响发生微小的偏差[4]。关于汉语普通话元音的声道的形态学和声学方面的研究非常少。Wang建立了一套系统的汉语普通话的核磁共振成像数据库,涉及6男2女,汉语普通话元音、辅音、鼻音,动态二维、静态三维、动态三维数据[23]。然后,对其中的一个女性实验对象的元音的进行了声道面积函数的提取,测量和计算的共振峰的对比,误差在10%以下。

5. 总结

尽管人体的大多数发音器官都隐藏在身体内部,很难被观测,但是随着成像技术的发展,特别是核磁共振成像技术的出现,使得声道观测困难的问题得以解决,核磁共振成像技术不仅可以对静态的发音系统进行观测,同时还可以观测声道形状变化的动态信息,这种新型的声道观测手段,促进了人类言语生成相关领域的研究。
随着语音研究者将核磁共振成像技术广泛使用于声道的测量,不同年龄的实验者的声道形态学差异被发现;声道的主要部分及分支结构上的形态学结构,以及形态学结构所导致的声学特性也被了解;同时,不同语言间声道的声学特性也被研究。当然,言语生成领域中还存在着太多未知,相信随着时间的推移和我们语音研究者不懈的努力,这些令人感兴趣的问题都将会被我们找到答案。

参考文献

[1] Bartholomew, W.T.: A Physical Definition of ‘Good Voice-Quality’ in the Male Voice. Journal of the Acoustical Society of America. 5(3), 224-224 (1994)
[2] Sundberg, J.: Formant structure and articulation of spoken and sung vowel. Folia Phoniatr. 22(1), 28-48 (1970)
[3] Sundberg, J.: Articulatory interpretation of the ‘singing formant’. Journal of the Acoustical Society of America. 55(4), 838-844 (1974)
[4] Takemoto, H., Adachi, S., Kitamura, T., Mokhtari, P., Honda, K.: Acoustic roles of the laryngeal cavity in vocal tract resonance. Journal of the Acoustical Society of America. 120(4), 2228-2238 (2006)
[5] Takemoto, H., Mokhtari, P., Kitamura, T.: Acoustic analysis of the vocal tract by finite difference time domain method. Journal of the Acoustical Society of America. 128(6), 3724-3738 (2010)
[6] Kitamura, T., Honda, K., Takemoto, H.: Individual variation of the hypopharyngeal cavities and its acoustic effects. AcoustSci Tech. 26(1), 16-26 (2005)
[7] Kitamura, T., Takemoto, H., Adachi, S., Mokhtari, P., Honda, K.: Cyclicity of laryngeal cavity resonance due to vocal fold vibration. Journal of the Acoustical Society of America. 120(4), 2239-2249 (2006)
[8] Chiba, T., Kajiyama, M.: The vowel: Its nature and structure. Tokyo-Kaiseikan (1941)
[9] Fant, G.: Acoustic Theory of Speech Production. Наука (1964)
[10] Dang, J., Honda, K.: Acoustic characteristics of the piriform fossa in models and humans. Journal of the Acoustical Society of America. 101(1), 456-465 (1997)
[11] Mokhtari, P., Takemoto, H., Kitamura, T.: Single-matrix formulation of a time domain acoustic model of the vocal tract with side branches. Speech Communication. 50(3), 179-190 (2008)
[12] Honda, K., Takemoto, H., Kitamura, T., Fujita, S., Takano, S.: Exploring human speech production mechanisms by MRI. IEICE Trans Inf Syst. E87-D, 1050-1058 (2004)
[13] Masaki, S., Tiede, M.K., Honda, K., Shimada, Y., Fujimoto, I., Nakamura, Y., Ninomiya, N.: MRI-based speech production study using a synchronized sampling method. J. Acoust. Soc. Jpn. (E) 20(5), 375-380 (1999)
[14] Baer, T., Gore, J.C., Gracco, L.C., et al.: Analysis of vocal tract shape and dimensions using magnetic resonance imaging: Vowels. Journal of the Acoustical Society of America. 90(2), 799-828 (1991)
[15] Yang, C., Kasuya, H., Kanou, S., Satou, S.: An accurate method to measure the shape and length of the vocal tract for the five Japanese vowels by MRI. Jpn. J. Logop. Phoniatr. 35, 317-321 (1994)
[16] Yang, C.S., Kasuya, H.: Speaker individualities of vocal tract shapes of Japanese vowels measured by magnetic resonance images. In: Proceedings of International Conference on Spoken Language, pp. 949-952 (1996)
[17] Vorperian, H.K., Kent, R.D., Lindstrom, M.J., et al.: Development of vocal tract length during early childhood: A magnetic resonance imaging study. Journal of the Acoustical Society of America. 117(1), 338-350 (2005)
[18] Dang, J., Honda, K., et al.: Morphological and acoustical analysis of the nasal and the paranasal cavities. Journal of the Acoustical Society of America. 96(4), 2088-2100 (1994)
[19] Takemoto, H., Honda, H., et al.: Measurement of temporal changes in vocal tract area function from 3D cine-MRI data. Journal of the Acoustical Society of America. 119(2), 1037-1049 (2006)
[20] Story, B.H., Titze, I.R., Hoffman, E.A.: Vocal tract area functions from magnetic resonance imaging. Journal of the Acoustical Society of America. 100(1), 537-554 (1996)
[21] Kröger, B.J., Winkler, R., Mooshammer, C., Pompino-arschall, B.: Estimation of vocal tract area function from magnetic resonance imaging: Preliminary results. In: Proceedings of 5th Seminar on Speech Production: Models and Data, pp. 333-336 (2000)
[22] Badin, P., G. Bailly, et al.: A three-dimensional linear articulatory model based on MRI data. In: Proceedings of the Third ESCA/COCOSDA International Workshop on Speech Synthesis, pp. 249-254 (1998)
[23] Wang, G., Kitamura, T., Lu, X., Dang J., Kong, J.: MRI-based study on morphological and acoustic properties of mandarin sustained vowels. J. Signal Processing. 12(4), 311-314 (2008)

0 0
原创粉丝点击