谷歌CEO Pichai:希望AI从根本上改变每一台设备的本质

来源:互联网 发布:seo排名软件免费 编辑:程序博客网 时间:2024/05/01 23:37

撰写 | 微胖


「谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品。没有 AI,相应的产品也无法想象。」谷歌 CEO Pichai 在谷歌硬件发布会期间接受媒体采访时说道。


今天凌晨(北京时间),谷歌在加州举办活动,推出新手机 Google Pixel 2(以及 XL)、新智能音箱 Google Home Mini(以及 Max)、新无线蓝牙耳机、新 Chromebook 等全新硬件产品。



谷歌一直善于巧用 AI 解决一些其他厂商诉诸硬件才能解决的问题。本次发布会上的 Dual-Pixel 技术,再次展示出谷歌的精巧心思。


当前热门的「人像模式」的主流解决方案需要双摄像头。Google Pixel 2 单摄像头即可处理景深信息,拍出不输双摄的人像模式。在 Dual-Pixel 帮助下,像素点由左右两个子像素组成,一个记录颜色,另一个记录景深,机器学习算法配合多张照片合成后,即可实现背景虚化的效果。Pixel 2/2 XL 用单镜头实现了双摄功能,可谓「四两拨千斤」。



一、Clips:真正的谷歌 AI 之道


不过在 Pichai 看来,本次发布会首次推出的 Clips 最能体现谷歌的硬件 AI 之道。


Google Clips 是谷歌推出的一款新相机。内部人工智能引擎会引导相机寻找它感觉有趣的东西:微笑、你关心的人、追逐尾巴的狗,并自动捕捉这一刻。随着时间的推移,这款相机会更加智能化。小巧相机几乎可以夹在任何东西上,完成许多角度的拍摄。照片和视频可以被单独保存到谷歌相册中。



谷歌不仅仅要将 AI 功能融入每一款产品,而是要在 AI 的启发下去打造产品,没有 AI,相应的产品也无法想象。Clips 可谓适例,它以新的方式重新定义摄影,利用谷歌技术完成了许多不同任务:面部识别、识别「不好」的照片和有趣的内容。


「我有意给一款硬件产品起了个软件名字,因为这款产品更加激动人心的部分是机器学习,幕后的计算机视觉任务。」Pichai 说。它也是 Pichai 希望谷歌能涉及更多的产品范例。


制造硬件并不仅仅是为了卖产品,也是在学习掌握硬件如何融入 AI。「如果不能『软硬兼施』地去思考这些东西,很难将计算技术推向未来。」Pichai 表示。每一款硬件产品,也可以说是「如何利用 AI 反思我们的产品」。他不想让 AI 停留在某个新增功能的层面,而是希望 AI 从根本上改变每一台设备的本质。


值得一提的是,谷歌特意将这款相机设计成完全在本地执行任务,内容不会被送往云端。


两种 AI 的任务方式(云、边缘)是必须的,Pichai 在接受采访时表示,「这种综合的方式,绝对有意义。」他说,「对两种方式,我们都会审慎地进行投资。这取决于语境、你要解决什么问题以及以不同的方式部署是否有意义。」


二、Pixel Buds : 重新想象的 Her 与巴别鱼


本次大会上,首次亮相的另一款智能硬件 Pixel Buds,也是谷歌第一款无线蓝牙耳机。有点类似 Her 与巴别鱼的合体,这款其貌不扬、设计甚至有点滑稽的耳机,其真实目的是为了用户可以更快、更简便地接入 Google Assistant 和 Google 翻译。




仅需将右手放在右耳部分开始说话,即可激活助手。耳机可以立刻将你的语音传输给收音机,无需等待任何提示音。举起手指,语音助手即可进行回复。


Google 翻译的惊艳效果已无需多言。这款蓝牙耳机不仅能够读取信息,还支持实时翻译,支持的互译语种达到 40 种。「help me speak English」,然后说一个短语,当你的手离开耳机时,翻译结果即刻出来。你的对话对象按住手机按键说出他们的回复后,你即可从耳机中听到译后版本。


三、传统智能硬件之争,仍离不开演进中的 AI 技术


除了这两款全新设计的智能硬件,手机、音箱仍然是传统竞赛项目。总的说来,想要赢得硬件之战,谷歌手机还需要寄希望于服务和软件,特别是 AI 和机器学习。不断演进的 Google Lens 和 Google Assistant 有望帮助谷歌硬件更加出类拔萃。


1、技术壁垒之声纹识别。


在智能音箱的对阵中,除了发布两大型号智能音箱对标 HomePod 与 Echo Dot 之外,谷歌将弯道超车的另一法宝押在了对方暂时没有的技术壁垒上:声纹识别。


微信用户对声纹识别并不陌生。声纹识别的最直接的用途是识别说话人身份。


其实,早在几个月前,Google Home 就进行了一次重大升级,谷歌成为第一家商用化音箱支持多用户声纹识别的公司。Google Home 可以根据提问的人的不同身份提供不同的信息,根据每个人的声音执行指令。


本次大会最大的亮点之一 正是「Voice Match」。借助这一功能,Google Assistant 能区分不同用户的声音,并且根据辨别用户,从而对同一个指令做出不同的应对。


例如:你和伴侣都对 Google Home 说「打电话给妈妈」,Google Assistant 就会根据识别出的声音,调取你和伴侣各自的通讯录,然后打给各自的妈妈。


关于语音助手,还有一个值得注意的细节。在这次发布会上,Google 为 Pixel 2 两款新机加入了一项名为「Active Edge」的功能,可以利用握持动作唤醒一些快捷方式(默认是呼出 Google Assistant 和来电时静音)。也就是说,无需唤醒词,通过把握行为即可唤醒语音助手。


2、Lens 从底层技术实现 AR 玩法,战略意义不容忽视


「多点触控是一个很大的进步。」Pichai 说,「但是,未来的交互将会更多地以对话形式、感官方式进行,比如语音、视觉。」和 Bixby 一样,它可以识别真实世界目标并搜索。


2017 年谷歌 I/O 大会上,Google Lens 首次登台亮相即成为当时最大亮点。Google Lens 并不是一个硬件,而是一个可以根据图片或拍照识别出文本和物体的软件内部功能,能实时分析图像并迅速共享信息。


它可以帮助用户快速识别物体(植物 、古迹等)、自动联网和了解附近地区。这项新技术会最先应用在 Google Assistant 和 Google Photos 上。


在这次发布会上,Google Lens 进一步展示了 AI 在图像识别中取得的全新进展。比如,即使在干扰项非常多的情况下,它也可以很好地工作。


AI 可以判断相机镜头对着的影像信息内容,比如传单上 Email 信箱位址,并会自动在手机上显示问你是要创建联系人、传送信件或只是单纯复制文字。Google Lens 还可以判断艺术作品、唱片或者书本封面信息,快速帮你搜索出相关信息。刚到一个新城市旅游的 Google Lens 用户,只需要四周扫扫,即可游刃有余地在城市中旅行。



其实,Google Lens 的这些应用也是手机镜头+AR 的完美组合,可以轻松实现便捷和广泛的 AR 应用。想象一下随手扫描一家餐厅的照片,眼前就会出现各式菜品的 AR 效果影像。


不过,谷歌是从系统底层技术入手,实现 AR 应用。虽然 Snapchat、苹果都把带有 AR 滤镜的手机摄像头功能当成最核心的产品功能(iPhone X 手机豪赌 AI+AR),但有分析认为,与 Google Lens 能实现的 AI+AR 的搜索相比,他们仍然只是浅表意义上的应用。娱乐毕竟只是 AR 广阔市场中一个小的领域。基于 AR 的搜索才是拥有巨大潜力的主流应用未来。前段时间,谷歌公布的 ARCore 也将在 Google Pixel 2 中预载。


3、语音合成技术终于产品化。


最后,值得一提的是 DeepMind 的算法终于产品化,被用于 Google Assistant。去年 9 月,DeepMind 公布了其在语音合成领域的最新成果 WaveNet,一种原始音频波形深度生成模型,能够模仿人类的声音,生成的原始音频质量优于目前常用的语音合成方法。


不过,当时这个模型还只处于雏形阶段,对于消费性产品而言,模型的计算消耗量太大。经过 12 个月的努力,DeepMind 大大提升了模型运行的速度和质量,目前已经推出 WaveNet 的更新版本,可以在所有平台上生成美式英语和日语的 Google Assistant 语音。


四、在线消费者产品的 AI 创新仍然步履沉重


尽管谷歌雄心勃勃地做自己的硬件,但较之在线业务营收,仍然是九牛一毛。在接受媒体采访时,Pichai 表示接下来五年,硬件业务会成为公司财务的一大爆发亮点。




目前,在线搜索业务仍然是谷歌的重要营收来源。每天,谷歌需要应对的各种错误、被操纵的信息与日俱增。就在这次发布会的前几天,谷歌(和 Facebook)再度被卷入舆论漩涡。谷歌的推送算法给出有关骇人听闻的拉斯维加斯枪击案的政治化虚假新闻。


谷歌搜索结果中包含了来自有争议的 4Chan 的「头条新闻」,但该文章包含了错误猜测的枪手名字(误指为 Geary Daniel)。对此,谷歌归咎于算法错误(执法部门后来确认了枪手的身份为 Stephen Paddock)。错误的链接存在了数小时。


「我们有责任纠正这一错误」,谷歌 CEO Pichai 最近在接受媒体采访时表示,「但是,每一次跌倒,会感觉到疼,也应该承担起责任。」后来谷歌在一份声明中称,为避免未来发生同样的尴尬,他们会对软件作出调整。


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。人们仍然会质疑,谷歌算法系统是否能够做出正确决定,而不是仅仅是让决定更容易?


今年 7 月,谷歌推出自己的新闻推送服务 Google Feed,该服务将通过谷歌应用向 iPhone 用户和 Android 用户提供包括新闻报道、视频以及为个人用户定制的其他内容在内的各种内容。


「这不是你的朋友感兴趣的东西,也跟其他的新闻推送服务不同。」谷歌工程副总裁 Shashi Khakur 说。谷歌使用的是自己的搜索历史。


谷歌的基本搜索办法也可以用于提供好的、值得信赖的内容。Pichai 说,「我们仍然使用相同的核心原则,就像在 Ranking 中使用的那样。原则可以平等地加以应用。我感到欣慰的是,同样一套东西是起作用的。」


但在有关事实王国之外,怎么处理真诚的意见,Pichai 也没有把握。「我们所有人都要努力克服的问题是,怎么处理人们不同意的地方?」在推送意见时,Pichai 很好奇谷歌是否可以「带来更好的观点,而不是单纯的排名.... 这是我们早期勘探领域,但我认为,我们可以做的更好。」


谷歌用 AI 来创新硬件与在线消费者产品的能力,并非并驾齐驱。但是,当请谷歌为我们做出更多决定时,Pichai 不得不展示他们的 AI 具有判断力,而不仅仅是一套算法。


阅读全文
0 0