倘若“人声”可以轻松“制作”……

来源：互联网发布：湖南乐知英语编辑：程序博客网时间：2024/04/29 03:11

【日经BP社报道】各位读者，大家还记得格林童话中《大灰狼和七只小羊》的故事吗？或许有人会说“那么老的故事早就忘了”，那么，笔者就先来简单介绍一下这个故事：趁着七只小羊的妈妈出门办事，大灰狼打算装扮成羊妈妈，并学羊妈妈说话骗小羊开门，虽然多次失手，但最终还是得逞。

       对于小羊，辨认妈妈的关键点是手脚的颜色和声音。用手脚颜色认人至少在日本还未曾出现过，但作为不使用机械、人与人之间相互辨认的手段，声音的重要程度如今依然仅次于长相。

       其实，有些稍早的手机很难听出对方是谁。不少人或许都曾经碰到过以为对方是“陌生人”，小心翼翼地用平常不用的敬语打电话的经验。

       老式手机之所以难以识别对方的声音，一方面是因为噪声大，但主要原因还是传送音频的通信带宽窄，采用了低采样频率和高压缩率的编码技术，在这个过程中，舍弃了大量可辨别通话人声音特征的信息。

       从最近的功能手机和智能手机来看，分辨不出对方是谁的情况已经大幅减少。这一改进的原因之一就是通信带宽增加，能够使用高采样频率和低压缩率的编码技术。

       与这一变化关系密切的是智能手机领域从大约1年前开始增加的语音类服务。这些服务经由网络利用了“机器耳”——语音识别技术，以及“机器声”——语音合成技术。更准确地来说，利用的是由服务器执行语音数据处理的“云计算型”系统。云计算型语音服务的创意在10多年前就已经出现，但投入实用还是最近的事情。过去，对于人分辨不出的声音，“机器”也基本也识别不出来，这些“机器”即使配备在手机系统中也派不上用场。而最近，“机器”已经达到人耳分辨的水平，经由网络让 “机器”利用语音识别技术和语音合成技术的前提条件终于备齐。

       最近，能够合成出与艺人一模一样的声音或是自己声音的技术和服务也已经出现。在过去，就算机器能够模仿的音色再多，由于通信线路带宽窄，好端端的技术也变得毫无用武之地。最近，随着经由通信线路识别声音成为可能，各种再现“音色”和“语调”的服务如雨后春笋般涌现出来。

语音授权商务起动

       但随之而来的有好处也有坏处。

       典型的坏处就像开篇介绍的大灰狼，不法分子有可能伪装成他人做坏事。在过去，装成熟人打诈骗电话还需要找“感冒了”之类的托词，而如果声音酷似，就算是非常谨慎的人，恐怕也难免会上当。在不久的将来，打电话的时候，单凭声音或许已经完全无法判断对方是谁，就算家人之间通话，说不定也要先对暗号，或是互发指纹数据。

       目前，合成与原声完全一样的声音需要30分钟以上、最好是2个小时以上的录音数据。但是，仅根据几秒钟的音频数据即可自由重现原声的技术开发进展飞快。如果技术水平继续提升，音频数据有可能会成为重要的个人信息之一，与陌生人通电话的时候，甚至可能需要刻意改变自己的声音。

       另一个可能出现的坏处是配音演员的工作有可能减少。只要拿到语音合成需要的声音设计图，也就是“音色数据”，差不多就可以自由自在地用配音演员的声音“朗读”各种各样的文章。到那个时候，动画片配音演员表中说不定不再有演员名而是“配音演员音色数据”的名称。

       由于上述坏处，大家或许会觉得还是不要语音合成技术了，但好处也是有的。举个最简单的例子，录音电话、闹钟的铃声可以用喜欢的艺人的声音。因咽喉疾病即将失声的患者在手术之前制作自己的音色数据，在手术后利用数据“说话”也已经可以实现。

       这项技术还有望应用于自动翻译。现在经由电话提供的自动翻译服务不能选择翻译的音色。因此，该服务把孩子的声音也会翻译成成年人的声音。目前，使翻译的声音尽可能接近原声的技术也正在研发之中。

       对于上面列出的坏处之一——配音演员失业的问题，如果换一个角度，这也有可能转变成好处，也就是创造出新的商机。音色迷人的配音演员通过出售自己音色数据的使用权，说不定今后不用工作，收入也会大幅增加。即便不是配音演员，如果拥有迷人的音色，或许也能开辟出一门副业。

       笔者之所以会设想到这样的商业模式，是因为现在的语音合成技术还不能自由自在地随意合成任何人的声音，需要以一定的真声为基础，生成音色数据。但在不久的将来，随着人声分析技术的进步，人声数据的哪些特征量与声音的魅力相关联估计也将水落石出。到那个时候，大家都能用自己喜欢的合成语音说话的时代或许也将来到。不过，这还真是让人觉得有点毛骨悚然。（记者：野泽哲生，《日经电子》）

参考：http://china.nikkeibp.com.cn/news/digi/64114-20121227.html (2013/01/04 00:00)