专访爱数智慧CEO张晴晴:数据服务刚性需求,获客难度不大

来源:互联网 发布:中国未来 通胀 知乎 编辑:程序博客网 时间:2024/06/05 21:58

本公众号已经改版,推出了线上线下课程,并且推出免费2个月广告服务业界优质产品。



提到数据需求,张晴晴并不认同,明年整个市场的数据需求将会是今年的5-6倍这一说法。她解释道:“当前市场的核心问题是客户的需求服务不过来,可能现在的需求已经百万倍,千万倍,而是我们现有的数据不足以满足客户的需求。”

初见张晴晴,眉清目秀,笑容可掬,干练又不失优雅,但很难将她和“技术专家”这一称谓联想到一起。在我们心中,技术专家应该是严肃古板,外加一副黑色镜架。然而,张晴晴作为爱数智慧科技的创始人兼CEO,在语音识别领域已有十余年研究及工作经验。

缘起数据,创业不易

女性创业本就不多,在数据处理服务领域则更是凤毛麟角。

张晴晴从2005年就加入中国科学院声学研究所,专注于研究语音识别领域。在为Baidu、腾讯、阿里、360、UCweb、蚂蚁金服等各大互联网公司搭建语音识别的baseline声学建模系统过程中,不断意识到数据质量的重要性。

对人工智能公司而言,高质量的数据是根本。实际上,很多AI公司把大量时间和精力都花费在信息的获取和处理数据上。而且,行业内缺失“有价值”的一手数据。面对数据获取难、质量和价值不高的行业痛点,张晴晴深深意识到专业数据处理公司对AI行业发展的必要性和迫切性。

2016年,张晴晴正式创办爱数智慧。爱数智慧作为一家人工智能大数据处理服务企业,致力于为智能语音、自然语言理解、智能图像等领域的客户提供一站式数据服务,包括数据方案设计、数据采集,数据标注/转写等。

谈到创业,张晴晴会心一笑。小到保洁、组装电脑,大到团队组建、公司运营,都要亲力亲为。她表示,尤其是在团队组建方面,数据处理服务需要很多专业的语音技术和其他算法技术人才。而行业内,人才竞争十分激烈,很多就职于大公司的技术人才并不会轻易跳到一家初创企业重新开始。但截至目前,团队内研发人员已经达到50多人,不亚于其他大规模的甲方公司。

从行业痛点出发,保证数据质量

据中商产业研究院发布的《2017年中国人工智能产业研究报告》显示,2016年中国人工智能市场规模已达到96.61亿元,增长率为37.9%,人工智能市场规模持续增长,预计2017年将超130亿元,并有望在2018年突破200亿元。而未来,通过对话展开交互的技术将成为一种常态。从远场语音的市场来看,2017年,全世界只有1600万台AI语音助手出货。但据IDC的研究报告指出,在2020年前,这个数据将会达到1.5亿,增长近110%。从传统的文本输入向效率更高的语音输入转化,这为从事语音数据采集、清洗、挖掘带来了更大的市场空间。

而做数据处理服务,自然离不开最关键的要素——数据。爱数智慧既然看到了行业内所面临的数据痛点,又是如何解决的呢?

首先,如何解决数据获取渠道的问题。目前,市场上确实存在一些数据,可以通过微博知乎抓取,也可以通过大学或研究机构获取公开数据,但这样的数据量并不能满足AI公司的需求,而且数据的价值也并不是很大。爱数智慧则偏向采用众包模式,通过APP上开放式的标注界面,用户可以领取数据和标注。这样既保证了数据来源的隐私性及安全性,也丰富了数据来源的广泛性。

其次,如何保证数据的质量和处理速度。数据采集会形成海量数据,但如何筛选出优质数据也是一项难题。爱数智慧凭借一套自有的核心算法,对其供应商进行质量分层,通过算法将任务与团队进行匹配,提高数据的获取速度和质量。

最后,如何处理数据标注与劳动密集型的问题。张晴晴认为,数据标注不会完全脱离劳动密集型。一方面,现有的机器不可能实现完全的自动化标注,所谓的无监督或弱监督形成的数据标注结果,其性能相对较差,而人工标注的数据,其精准度则可以达到99%以上;另一方面,数据标注也为传统工业企业的员工带来新的转型就业机会。

语音切入,外延图像和文本

爱数智慧的核心业务是数据处理,包括数据采集,自有版权设计以及数据标注和转写等,为客户提供定制化和标准化数据库。其中,标准化数据库通过前期的调研和足够的专业度,形成成品数据库,经过清洗和标定提供给众多企业。初创企业用标准数据库来搭建baseline的模型,大企业则用来作为补充,优化其性能。

除张晴晴在语音识别领域有十几年的研究和工作经验之外,团队内其他核心成员也大多都是语音技术背景。鉴于团队和自身的技术背景,张晴晴表示,爱数智慧以语音为切入点,初期客户以语音领域为主。但随后她补充道:“其实,不能把语音作为划分客户的标准,因为所有的客户其实都是多模态的。可以说,我们把语音做好之后,再广泛辐射到图像和文本领域。

目前,爱数智慧的语音数据库已涵盖多个中英文语料库和语音数据库,此外还具有维语、粤语、日语、韩语和越南语等多个丰富的语音数据库。图像是除语音之外主推的另一个领域,目前主要聚焦于三个方向:人脸识别、视频监控和辅助驾驶,其合作伙伴有中科视拓。文本则是相对于语音和图像更难的一个层面,语音和图像有标准的准则定义正确与否,而文本理解层面则是见仁见智。针对其应用场景,张晴晴表示,最大的场景则是客服,即自动应答机器人。通过对文章的标记,提取出中心思想,然后上升到问答层面,所涉及的自然语言理解技术还是相当难的。

刚性需求,获客不难

提到数据需求,张晴晴并不认同,明年整个市场的数据需求将会是今年的5-6倍这一说法。她解释道:“当前市场的核心问题是客户的需求服务不过来,可能现在的需求已经百万倍,千万倍,而是我们现有的数据不足以满足客户的需求。”

此外,行业竞争并没有芯片领域那样激烈,龙猫数据CEO昝智也表示还没有到抢市场的时候。很多大公司都是多模态的业务发展模式,数据需求也是刚性的。现有市场内,不可能存在一家数据处理服务企业满足某一领域的所有需求,因此,张晴晴更在意的是行业内各家服务的质量,共同推动行业良性发展。

正如数据处理一样,“Garbage in Garbage out”,服务也是如此。张晴晴表示,爱数智慧正是坚持为客户提供优质数据的理念,其获客难度并没有想象的那么大。很多之前服务过的客户,会推荐给其他数据需求公司,从而形成良性的效应,很大程度上解决获客难的问题。

深耕技术,紧跟海外风向标

爱数智慧目前的研发人员有50多人,未来计划在技术方面储备更多的人才,专注于数据库和数据分析领域,提高数据处理服务的技术支撑能力。此外,张晴晴还表示会开拓更多海外客户,将北美、欧洲作为数据处理服务行业的风向标,制定更精准的标准化数据库。

爱数智慧成立于2016年5月,2017年初就获得明势资本数千万元Pre-A轮融资,预计今年营收在2500万元左右。但张晴晴表示,虽然该行业不是烧钱的行业,但前期研发需要垫付大量资金,做得越好越缺钱,因此未来也会考虑新一轮融资。


可添加本人微信号fpwhljy或扫码一下公众号:可进技术和行业群交流。



原创粉丝点击