语音技术现状:四千万突破语音产业的技术壁垒?

来源:互联网 发布:外国人怎么看中国 知乎 编辑:程序博客网 时间:2024/05/16 11:33
摘要:百度用了两年,令其语音技术初具成效;腾讯因微信开始整合技术资源;而盛大以高成本结出了两颗果子,一颗是“灵声科技”,一颗是“云知声”。盯着语音这块大蛋糕的,到底有多少家公司,水平如何,我们来做一番梳理。

近年来智能语音市场的火热,引起了越来越多的人的关注。最明显的标志,就是科大讯飞的市值。作为语音行业的龙头企业,短短几年时间,科大讯飞的市值从刚上市时的34亿,已经增长到超过200亿,让人瞠目结舌。而这几年移动互联网的大规模爆发,作为主要载体的智能手机在打字输入方面非常不方便,这更让语音识别技术变成了必需品。这大大拓展了智能语音市场的想象空间,让人们不得不盯紧这块巨大的蛋糕。那么,这块巨大的蛋糕里,有多少家公司,每家公司的水平如何,让我们来做一番梳理。

作者简介:角宿,语音技术领域资深从业者。

技术门槛

首先要知道,智能语音行业是个技术密集型的行业,核心技术一直是智能语音行业的一个重要门槛,也是一家语音公司的核心资源。智能语音行业的技术很多,除了最著名的语音识别、语音合成外,还有说话人识别、音乐识别、语种识别等。如同“数学是科学的皇冠”一样,语音行业技术也有一个“皇冠”,那就是“语音识别”。为什么语音识别是“皇冠”?两点理由:一是技术上最难,二是实用前景最大。所以要考察一家语音公司的技术水平如何,就看它是否能提供高性能的语音识别产品。科大讯飞一直说自己的行业门槛高,主要就是指语音识别技术的门槛高。

前几年语音行业不景气,做语音的多是以学术界为主,这使得国内的语音核心技术一直掌握在科大讯飞、中科院声学所、中科院自动化所、清华大学等几家单位里。同时也导致语音行业的人才很稀缺。互联网大佬们有钱都招不到人。

除了国内的几家单位,还有一些著名外企在国内设了语音研究机构,水平也很高。比如鼎鼎大名的微软亚洲研究院,给SIRI提供语音技术的Nuance,还有IBM、摩托罗拉。不过这几家外企的语音部门并没有随着国内语音产业的爆发而发展。微软亚洲研究院的语音组一直在缩水;Nuance在中国的部门一直不是核心部门;IBM的相关部门卖给了Nuance;摩托罗拉更别提了,是其中最惨的一个,语音部门解散,语音合成的部分卖给了Nuance。除了语音产业在前些年一直做不大的原因以外,笔者猜测的一个原因是,语音识别牵涉到信息搜集,有国家安全的考虑,所以国家不会把这部分业务放给外企来做,外企也就不再在国内加大投入。比如Google的语音识别服务,国内的连接一直就时断时续。

算起来,现在语音行业的核心带头人,或多或少都和上述几家公司和单位有着联系,要么从这几家单位获得学位毕业,要么加入过这几家公司。

盛大往事

谈到国内语音产业的发展,不能不提的就是盛大语音院。因为它确实是从无到有,花了三年时间,突破了语音产业的技术“护城河”。它所花费的人力成本、时间成本,无疑给各个互联网大佬们做了个样板。大佬们可以从盛大语音创新院的花费中,推算出如果自己想从头开始投资语音技术,需要花多少人、多少时间、多少资金,才可以在语音市场上有一席之地。这几个重要指标下面都会细致的谈一谈。

盛大2009年开始成立的语音院,是金融危机爆发的后一年,也刚好是国内语音产业爆发的前一年。上文说过,语音行业的人才紧缺。也就是这个时候,才能从各大语音公司和部门,挖过来那么多核心员工。据了解,盛大组建的语音团队,从事语音技术研发的核心员工,最多的时候有三十多人。这对于语音研发团队来说,是个相当恐怖的数字。因为通常一家公司的核心语音成员都在十人以下。而国内做语音的也就那几家公司。盛大基本上挖了个遍。所知道的,科大讯飞、中科院声学所、Nuance、摩托罗拉、微软亚洲研究院都有核心员工被挖到盛大。这些员工带着原来公司的核心技术来到盛大,自然也要尽快拿出成果。带着这几家大公司的核心技术,在三四十员工的研发下,盛大还是花了两三年时间,才拿出了像样的语音产品。不得不说,语音行业的技术门槛确实很高。盛大也是机缘巧合,才能突破语音技术“护城河”。

所以,从盛大的经验来看,要从头开始做语音技术,人数上要有三十多人。而且这一过程至少需要两年的时间,如果考虑到团队组建,可能会更长。资金方面,据悉,盛大对语音院的投入达到了四千多万,人力成本的开销的比重较大。由于这两年各大公司都开始成立语音部门,需求的增长也让语音人才的薪资水涨船高。所以,四千万的资金投入还不一定能满足这样的成本开销。

不过,盛大在语音行业走了步好棋,甚至市场上有声音称其有望挑战科大讯飞。但不幸的是,整个盛大集团近期一直处于衰退阶段。因为退市而资金不足的盛大,只能大幅度减少投资力度。盛大语音院的上级机构——盛大创新院几乎全部解散,让人唏嘘不已。在这场动荡中,一部分员工离开了盛大语音院,成立了一家叫“云知声”的公司。云知声大约有90%的员工曾就职于盛大。短短几个月内,这家公司就推出了自己的语音识别技术。不过据称,它与盛大仍存在一些历史遗留问题。

盛大在语音方面的投入也不是完全没有结果。2013年,盛大语音院从盛大正式独立,成立了一家叫“灵声科技”的公司。据灵声科技方面称,盛大没有得到灵声科技的控股权,以盛大以往在资本运作上的强势风格来看,不知中间又发生了什么故事。

盛大栽下了“语音院”这棵树,结了两颗果子,一颗是“灵声科技”,一颗是“云知声”。从此,盛大语音院的故事告一段落,两个新的公司带着盛大的核心技术,开始了各自的征程。

互联网大佬的现状

既然盛大投资了语音产业,其他几家互联网巨头也想从该领域分一杯羹。腾讯、百度、阿里、搜狗陆续成立了语音部门。

对百度和搜狗这类搜索公司,语音识别技术是必须的,而且其商业价值也很清晰,因为Google已经验证了语音搜索在移动终端的重要性,国内搜索公司只需要跟进投入即可。因此,百度方面由李彦宏亲自督管该项目。腾讯方面,其语音部门隶属于微信事业部,微信大批量的语音输入,使得语音识别的用处很广泛。阿里则是刚开始介入语音产业,部门也才成立不久。

这几家公司里,百度的语音技术已经做的不错。2010年就成立了语音部门的百度,开始都是游兵散勇。百度还从中科院声学所买了一些授权,但是没有专业的语音开发人员,没做出什么成果。正如之前所说,语音技术门槛高,从头开始做很难,没有其他公司的技术积累基本无望。百度后来从中科院自动化所挖来一批人才,通过自动化所的技术累积,花了两年多的时间,才慢慢地把语音技术做了起来。腾讯其实也差不多从2010年左右开始投入语音技术,但是力度一直比较分散。据说当时腾讯研究院、输入法等两三个地方都在做语音,每个团队都是一两个人,所以一直没见成果。近期由于微信大红,其中有大量的语音输入,因此才将语音研发人员整合起来,步入正轨,不过要达到其它家的水平,尚需时日。其他几家公司中,搜狗对语音技术已投入了一年多,目前为止还是相当一般,否则搜狗语音助手也不会还依赖于第三方的语音引擎了。阿里的部门今年才成立,更不用说技术了。

国内那些专业语音公司

除了上文提到的语音公司的龙头企业——科大讯飞,出身于盛大的云知声和灵声科技外,其实在近些年里,国内成立的其他语音公司也有若干家。捷通华声就是一个出身于科研院所的典型。这家语音公司一开始技术上是依托于中科院的声学所,成立时间基本和讯飞相当。在之前相当长一段时间内,也是和讯飞旗鼓相当。但是最终的结果是讯飞发展起来并成功上市,而它则相对惨淡。近年来捷通华声语音技术上并没有太大的起色,而市场应用也还是那一亩三分地,比如一些科研项目。与之类似的,另外一家依托于声学所的语音公司——中科信利,其发展状况也差不多。

除了声学所以外,中科院的自动化所也是国内语音技术的一股中坚力量,从中也分出了几家语音类的公司,其中包括紫冬锐意和纳象立方。紫东锐意以语音和翻译为核心技术,主要提供口语翻译软件。纳象立方则主要对视频进行字幕处理。

除此之外,近期也出现了一些海外背景的语音公司,针对于大语音产业的细分领域。一个是苏州思必驰,据称该公司的创始团队成员有剑桥大学的背景,主要是将语音技术应用于英语教育。还有一个是普强信息,该公司的创始团队来自硅谷,其主要业务是为呼叫中心提供智能语音技术。

跨越技术“护城河”的标志

此前说了这么多技术门槛,大家可能会有疑问,如何判断一家公司的语音技术已经越过了“护城河”。不能是你说行就行,你说不行就不行,要有一个客观标准。这个客观标准是什么?业界的讨论是,是否推出了语音识别公开平台。为什么这么说?如之前所述,语音识别技术是语音产业的“皇冠”。那么判断一个公司的核心技术水平,就看它的语音识别技术做的怎样。而通过语音识别公开平台,就可以判断一家公司的语音识别技术水平。从这点上看,科大讯飞是最早公开发布的,也肯定了科大讯飞的技术水平。盛大语音院是第二家发布的,现变更为灵声科技继续开发。搜狗公司曾使用过盛大的语音识别平台,也算确认其技术水平。云知声推出稍晚,但是近期宣传非常高调。其它语音公司包括捷通华声、紫冬语音甚至普强信息也各自都发布自己的语音技术平台,但是在市场上并没有看到太多应用的声音。百度虽然没有对外发布,但是在百度内部,已经推出了一个语音识别平台。这几家可以算得上圈子内正式的玩家。

发展前景

我们把国内现有的语音公司和部门分为两类。一类是独立的语音公司,以讯飞、云知声、灵声科技为代表;一类是互联网巨头公司的语音部门,以百度、腾讯、搜狗为代表。

独立的语音公司策略比较灵活,可以多方面发展,但平台的可能性不够大。但讯飞比较例外,即作为独立的语音公司,同时去年又和中国移动达成战略合作,解决了发展平台的问题。这也是它被投资者看好的原因。出身于盛大的灵声科技、云知声,虽然语音技术上已经可以和讯飞相媲美,但发展平台与讯飞差距很大,商务上也不及讯飞这么多年的积累,需要傍大树,才能获得迅速的发展。但技术门槛已经被突破,所以讯飞也在这几家新公司而头疼。

互联网巨头公司的语音部门有个大的发展平台,但是基本上只服务于公司的整体战略,很难在多方面发展。比如百度的语音部门,就服务于百度的语音搜索业务和语音助手业务。腾讯的语音部门,就服务于微信业务。这些部门今后的命运,可能类似于微软公司的语音部门、谷歌公司的语音部门,专门为本公司的核心战略服务。

随着去年SIRI的推出,语音号称作为移动互联网的入口,想象空间高到爆棚,让所有人都心动了一把。但经过这段时间的发展来看,还为时过早。整个语音产业的后续发展趋势,还值得继续观察。


原创粉丝点击