3个开源TTS（三）flite的简要分析与espeak的选择

来源：互联网发布：黑魂女性捏脸数据编辑：程序博客网时间：2024/04/28 05:02

这篇主要介绍下flite和在windows下的cygwin中编译，以及选择espeak的原因。
从flite的介绍中可以看到，它是festival-lite，即festival的精简版，相对于Festival结构过冗余，速度太慢，它是一款短小精悍，快速实时的TTS引擎。Flite设计中兼容Festival的voiees和models，Flite使用HRGS（heterogeneous relation graphs）作为它的基本的发音代表结构。而且合成器的大部分内容是数据，比如字典，单元数据库等(lexicons，unitdatabaseetc)，实际的代码量相当的小。对于festival，大部分数据存在在外部文件中，依需要而下载，而对于Flite来说，因为它是非常小的一个引擎，所以允许核心数据在ROM中。从架构上看，Flite包括两个部分，核心库和声音，Flite库包含核心合成代码。Flite声音，这包含三个子部分(1)语一言模型:字串处理，韵律模型 textprocessing， prosodymodelsete(2)字典不fJ字符到声音规则 Lexieonandxette:tosoundrules(3)单元库和声音定义 unitdat汕 aseandvoicedefinition。
Flite是墓于diphone原理合成的，Diphone合成中所使用的是一种简约语音库，它包括一种语言中出现的所有diphone(汉语中叫做双因素)，diphone的数量是基于这种语音的因素的数目，比如:西班牙语有大约800个diphone，德语有2500左右。在diphone合成中，每个dihone只有一个例子是包含在语音库里。在运行时，句子的韵律处理是基于这些最小单位的叠加，通过数字信号处理技术手段，诸如LPC、PSOLA或MBROA。由此而致的合成效果比单元必须系统的差一些，但是比共振峰好一点（espeak采用的方法）。由此的文本到语音的基本过程是，文字的预处理，从输入的文本到获得一个个的单词，界定出的标点符号等需停顿处，再由单词和diphone库词典，转换成相对应的diphone代表，该库由CMU语素库而来，支持超过175000个单词。再由录制好的diphone数据库对应的波形、韵律等属性，配合音高、音长等调节，最后采用PLOSA算法（基音同步叠加技术）拼接，确保平滑过渡。（来自参考【1】）
说了些基本的原理，对于大部分使用的人来说足够了。（一）中已经提到过其在Linux的编译使用了，只是在Windows下以为会比较顺利，结果出了些问题：首先是官方文档中提示VC6无法编译通过，但是源码中给的VS下的工程文件在VS2008和VS2010下都是没办法编译的，可能配置有问题，在网上找到VS2005下编译成功的，且提供了编译出静态库的方法（flite的版本是1.4的），地址是http://geoffair.net/projects/flite.htm，我没有环境，因此没有进一步测试。我的做法是在cygwin下，类似Linux的方法直接./configure make编译，然后想单独拿出来使用，需要cygwin.dll库，只要从cygwin中拷贝出来放到同一个文件夹中即可。至于使用mingw32的方法还不会。

没有进一步编程测试flite，其官方文档里面有测试的例子及API说明。决定后期还是使用espeak分析，简单来说其还在一直更新中，而且支持的语言种类多，合成简单，代码也比较少。问题是flite的语音库支持好，而espeak的语音自然流畅没有多大的提升空间了，只能说是优化了。想做成高端产品的话，科大讯飞、中科院的都是不错的选择。最后补充一点的是Android上的移植之类也是比较方便的，参考文献里面可以看看。

参考：

【1】基于嵌入式平台的语音合成技术的研究与实现
【2】中文文本转语音开源引擎EKHO http://my.oschina.net/hgneng/blog/68357

0 0