人脸是门大生意

来源:互联网 发布:淘宝登录阿里妈妈 编辑:程序博客网 时间:2024/04/27 16:34
我们正处在一个新时代的入口。人有70%的能量是被大脑消耗,大脑90%的能量用来处理视觉信息,人脸则承载了绝大部分的视觉信息。我们要讨论的是一个比Google Glass更酷的世界。

文/程苓峰-云科技

网易邮箱的用户已经可以用人脸而不是密码来验证登陆。安卓4.0实现了人脸识别。谷歌接连收购两家做人脸识别的公司。Intel刚刚发布以机器视觉为核心的感知计算软件开发工具包。巨头的动作表明人脸的应用开始主流起来。你一不小心可能就out了。
通过计算机的处理来把一张脸跟一个名字、一个身份对应起来。说起来就这么简单。但这是一项重大的仿生学上的技术突破。这背后的市场价值现在还难以估量。

先扫盲。相信你也会问一个我已经问过的初级问题:指纹不也能识别身份吗,何必要用人脸。干这一行的王道江已经面对合作伙伴和投资者们回答过无数次:人脸要比指纹识别更优越。

第一,指纹需要接触。而人脸不需要。很多小姑娘嫌脏而不愿把手指按到那个无数人按过的指纹采集器上,确实,细菌会因此传染,所以在医院里会被禁止。何况在极端的情况下是无法采集指纹的,比如有汗,煤矿工人的黑手,农民因为长年劳作指纹消失。
第二,指纹收集是个枯燥的事。但人脸收集是个有趣味的互动,就像照镜子。当你在公司门口对着一个人脸识别屏幕对着自己微笑,卡擦,门开了,同时扬声器里传出来一个清新的嗓音:看到你的微笑了,程苓峰。
第三,人脸的识别精确度已经发展到跟指纹类似:十万分之一的重复概率。但被复制和窃取的风险却小很多。在中关村花20块钱就可以做一个指纹膜,拿着它就可以帮同事代打卡或者开保险柜。而人脸膜现在还不存在。

这些优越性直接衍生出实际应用。比如在驾校,学员报名但不上课,后来就成了马路杀手。现在有了解决方案,在驾驶位前方的摄像头实时采集人脸,确保这个学员在这一段时间内一直呆在这个位置,而老师要在副驾的位置上。一旦换人就后台鸣笛。用指纹可解决不了这个问题。

如果你仅认为人脸是新一种的身份验证好方法。那就大大低估了它的价值。我们正处于一个新时代的入口。
人有70%的能量是被大脑消耗的,大脑90%的能量是用来处理视觉信息,而大部分的视觉信息来自人脸。这个世界上最变化多端、最阴晴不定、最让人魂牵梦绕、最难以捉摸的就是一张张人脸。它耗费了我们最主要的能量。你说搞定它会有多大价值?
《碟中谍4》有一个场景。我朝着一个人走去,他的眼镜里立刻识别出我的身份并且显示“这个人可能杀你”,但他从口袋里拿出手机之前我已经掏枪把他毙了。每次看见Google Glass就会想起这个场景。我坚信谷歌收购两家人脸识别公司可不仅是为了图片搜索,更为Google Glass。
再换个角度理解这个新时代。人脸识别只是一个表象,背后是基于视频的图像处理技术。这是下一代人机交互的制高点。

iPhone和iPad带来了什么?就是在与计算机交互的方式上,用触摸淘汰掉键盘敲字。第一次转换。
那接下来会发生什么?SIRI带来的提示是语音。键盘敲字需要十根指头,但触摸只需要一根,但语音连一根都不需要。第二次转换。语音的识别已经相当成熟。这里介绍一个有趣应用Shazam。它靠一个简单功能就有了2.5亿用户。当你听到一首歌却不知道它的名字,让Shazam“听一会儿”,几秒后它就会返回这首歌的名字以及类似的歌曲。

但语音还是单调,活生生的人需要动作。于是有了Kinect,对人体动作的精确识别。但Kinect只能识别肢体动作,这确实没什么含金量,于是人脸出来了。能识别你笑、你哭、你郁闷、你释怀。你转一下眼球就知道你想翻到下一页,你一闭眼一侧脸就知道你是想关掉电视。第三次转换。
人脸识别是目前能想到的最傻瓜化、最能释放自由的人机交互方式。进一步了解它需要从三个角度入手:更多的实际应用案例,商业模式,以及为什么人脸识别在今天而不是其它时间成熟。
有幸请到这个领域的领头羊公司深圳飞瑞斯的CEO王道江来作答。作为回报,他借助这篇文章扩大知名度。据说2012年飞瑞斯的收入会增长500%,预期未来两年会年均300%以上。但愿读完本文后你对这个数字会有信心。

海阔天空,光怪陆离

人脸是身份的标志,一切与此相关的场合都可以派上用场。
从前一段震动全国的深圳跑车撞人案说起。当时深圳警方为查清楚嫌疑人,调出了事发当天相关街道和酒吧的总长度几百个小时的录像,再由很多民警挨个浏览这些视频,以找出作案的嫌疑人到底是谁。但若采用人脸识别,计算机几分钟之内就能找到答案。
中国二三线城市的医保卡滥用相当普遍。老丈人得病,拿好女婿的医保卡去就医开药。在中国这样一个人情社会里靠人把关是不靠谱的。如果把人脸信息写入医保卡,只有跟当时的人脸匹配成功医保卡才能使用,能加大作弊的成本。
在工地和矿井这些危险施工现场。在出入口和电梯等位置做人脸识别就能清楚知道谁在什么位置,如果下班时间某人还没有从工地或者某个危险地段出来或那就能自动报警,某人可能在某个位置出事了。这就是IBM“智慧的地球”的一个子项目,智慧工地。飞瑞斯为IBM提供识别数据。

最极致的情况是,登机办票再也不用身份证了。昂首挺胸对着摄像头笑一笑就行。甚至还能用来防止两人在办票后互换登机牌,警察在追踪有组织犯罪时常遇到这种情况。解法是在机舱口放一个摄像头,而不必再派一个人站在那里检票了。
说到犯罪,如果在ATM取款机内置一个人脸识别摄像头,只有当取钱的人跟该银行卡匹配成功才吐钱,那就算把银行卡和密码都偷到手也没招。
在海关,检查走私的方法目前还是靠警察肉眼观察出关的人,选择可疑的加以抽查。如果装一个摄像头,就会立刻把有走私案底的人截获出来。据说深圳福田海关用这个方法抓出的走私占总截获量的70%。
上面都属于安保防护的成本支出,要说服机构或者政府部门采纳并不容易。下面来几个有直接商业收益的例子。

人脸识别和其背后的智能视频分析对于零售业的整个链条都有助益。
从开店开始,得选址,要客流量大的地段。以前是找个人守在一个地方数人头,现在放个摄像头就行,一个都少不了。开店之后得分析进店率,路过的人多但进店的不一定多。店门口装个摄像头,精准计算进店率。进店人多但买东西的人不一定多,还要转换率。在收银台装个摄像头,一切搞定。屈臣氏在部分连锁店已经用起这一套。

再来点有含金量的活儿。
转换率为什么不高?能帮你找原因。一个人从进门开始是如何行走的,在哪里逗留时间长哪里短,行走路径如何,这个关系到店面的布局,品类和陈列是否合理。
飞瑞斯给欧洲一家书店做过案例。书店陈设的本意是要顾客在店里转一个圈然后回到出发点附近的交银台,把所有类型的书在这条轨迹上都曝光出来。但飞瑞斯依据人脸对每一个跟踪后的轨迹图显示,大部分人都在交银台附近的区域打转并没有进入到书店深处。接下来书店做了调整包括把门口跟深处的书籍类型调换,之后,进店客流大部分都会按照书店本意把一大圈走完,逗留时间和业绩随之提升。

服务还可由面到点。一家门店的大部分利润是从小部分重要客户那里赚到的。但这些重要客户却未必是持有VIP卡的人。持卡的人未必常来,常来的人未必持卡。
人脸识别又派上用场。一个人一进门,摄像头传回图像瞬间匹配此人之前的消费记录,服务员会在他落座之前就迎上前去说:程先生您又来了,还是做靠窗的位置吧,像上次那样要一壶水果茶?买单时再说:您一个月光顾本店四次,我们给你八折优惠。
这并非臆想。有家大银行已经开始使用此类服务。


做Kinect还是PrimeSense?

也许你已经看到了问题,人脸识别和智能视觉的应用遍布多领域,但作为一家掌握核心技术的公司是否要同时进入这些领域?以零售业为例,店铺需要的信息是如何改进我的店铺陈设的具体建议,单纯的用户行走轨迹是不能直接拿来用的。
简言之,一家技术公司如何对众多行业给出具体方案。VC们抛给飞瑞斯的问题就是:你有价值,但你的边界在哪里。你所在的是一个全新世界。

不过单纯从初衷出发,也许所有掌握人脸识别核心技术的公司都想成为这个领域的PrimeSense。
微软游戏机Kinect利用对人体姿势的识别创造了有趣的运动体验。但为Kinect注入识别能力的是以色列公司PrimeSense,Kinect这是为这个能力找到了用武之地并且制造出了消费者能玩起来的设备。
PrimeSense提供高精准度但同时低成本的3D动作识别技术,这些技术都体现在一块芯片上。微软、华硕这些产品制造商直接采购芯片。PrimeSense的网站上这样介绍自己:我们是一家B2B公司,但我们专注于为客厅里的人们提供互动体验。

但飞瑞斯想成为PrimeSense的梦想在中国的现实里被击得粉碎。
王道江这帮人创业的第一想法是把集成了人脸识别的核心技术做成嵌入式软件卖给各个行业的企业,再由企业去开发特定的产品卖给最终用户,比如人脸打卡机。这里却有三道门槛。

第一道是配套能力。王道江接触了中国80%的安防企业,想把芯片,也就是嵌入式解决方案卖给他们帮助识别通缉犯、识别破门而入的窃贼等等。所有安防企业都说这个东西好,但就是不肯掏钱买。因为他们没有能力消耗这个方案。要用上这个方案需要硬件和软件的一整套配合,相关的常规基础极少企业具备。
第二道是需求激发。对于可以用到人脸识别的各个领域的市场机会,大部分的人都还没有看到,因为陌生。在乔布斯把触摸交互用到手机上做出iPhone之前,没人做这件事。难怪老爷子说过,如果去做用户调研就永远不会有iPhone。Wii和Kinect等体感游戏的推出也依赖于任天堂、微软等既有实力又能创新的公司。可惜中国的大部分行业还没有这样的公司。前面提到的人脸识别在驾校和商铺的种种应用,都是王道江这帮人自己找出来的。
第三道是老观念作祟。老外都清楚这一点,中国人认为软件不值钱,内容不值钱,工程和硬件才值钱。所以互联网上铺天盖地的盗版,搜索引擎暗中帮忙,微软在中国赚不到钱还要挨骂。那些对人脸识别有需求的企业都想自己通吃,老板不懂,一问技术都说不难搞,可又一直搞不出来,于是搁在一边。
结果是:飞瑞斯做不成PrimeSense,却必须去做Kinect+PrimeSense的合体,于是在各个行业里铺开。铺开的前提是和每个行业的专业公司合作。

以零售业为例。飞瑞斯采集的数据需要结合专业技能才能得出连锁店主看得懂、能立马用上的建议。于是飞瑞斯联合了零售业调研公司益普索Ipsos出高端分析报告。我看到一份给某日本著名连锁超市的PPT,里面给出了一家店铺在周末销售低迷的数字,指出原因来自店铺里某个特定区域的转化率不高。如果这一区域的转化率与日常水平持平,那么这家店铺可以在一年内新增380万的销售额。
这份报告的背后又显示了飞瑞斯在商业模式上的另一个转变。最开始打算卖芯片+方案,到后来妥协成卖产品比如人脸识别器,但在面对连锁超市这个真正的客户时,飞瑞斯再次调整,卖服务,也就是分析报告。

卖产品的阻力显而易见。一套人脸识别再加上数据处理设备市面上价格是几千,几百个连锁店一次性采购的成本不低,况且获取的数据不能直接为店长所用。
但卖服务的好处显而易见,飞瑞斯卖的是一周一次的分析报告,一个门店一个月500块。对于动辄可能几万几十万提升销售额的建议,500块是毛毛雨。而摄像头等硬件的部署是飞瑞斯免费提供,这一套的成本千元以下,几个月就收回成本,往后都是利润。
再以客车监控为例。每辆客车上装三个摄像头就能监控是否超载、驾驶员是否为本人、驾驶员是否疲劳驾驶(通过眼睛和眼球的信息抓可以实现)、是否中途有人上车等等。一辆车每月收费500,就能节约人力。成都市一家客运公司已经给飞瑞斯下了单。

再算总体规模。
广东省的连锁店铺有8万家,按每个店铺500块的月服务费,广东省一年有4个亿的市场规模,全国估计有80个亿。
全国的两客一危车辆,也就是大客车、危险物品运送车有90万,按照每个月500收费一个月是4.5亿,一年60亿,平均一个省2亿。7月24号国务院发文,要在源头上减少马路杀手,其中的重点就是瞄准两客一危。

这两个是已经被证明能激发出上规模的市场需求的例子。而基于视频识别的实际应用还相当之多,有些需求真是光怪陆离。
例1。通过监控大量蛇的行动轨迹来预测地震。是的,连人脸都能识别,蛇是小菜一碟。还通过监控田里老鼠的数量来适度的投放农药。
例2。把摄像头驾到副驾驶上,让富太太通过手机随时知道富老公轿车的副驾上坐的是谁。
例3。在一个熊猫玩具的眼睛里植入摄像头,看见小孩子笑,熊猫就跟着笑。当小孩子拿一个苹果给它,熊猫就说:Apple。
例4。在机场沿线的大广告栏上驾个摄像头,数出路过的车辆的确切数目,按实际效果计算广告费。
例5。在歌厅、广场等公共场合装摄像头,一旦现场数量超过一定密度就立刻后台预警,防止爆发公众事件。这对维稳价值重大。

当然,王道江要对95%的需求说NO。他没精力去每个领域找到合适的专业合作方,他最终要做的还是PrimeSense,专注于核心识别技术,做标准、卖芯片就行。再依靠芯片的大规模制造抢得成本的优势并抬高研发和制造的门槛。这样才有可能在5-10年技术领先被后来者追平后还屹立不倒。

万事俱备,守望爆发

王道江2005年在一个叫科佳的图像识别公司认识了工程师戴卫东。戴卫东对人脸识别着迷,觉得这玩意能搞大。但那时人脸识别要一套东西,还要拖一台电脑做视频处理和运算,贵而笨重。当时王道江跟戴卫东说,什么时候人脸识别能做到嵌入式,也就是不需要电脑拖着,我们就干。
2007年戴卫东对王道江说:能做到嵌入式了。1个月后飞瑞斯创立,天使投资同时到账。但人脸识别要产业化需要具备的条件太多了。嵌入式只是其中之一。不过好在这两个家伙不仅有胆量而且非常幸运。那么多必要条件忽然在2010年前后全部具备。

看一看如下这五个方面,你就会明白为什么这个产业算是平地起风云。

第一,识别技术。
以2000年为界人脸识别有了质的突破。之前20年里识别人脸都依赖于人的五官之间的相互距离这一类参数。但在2000年之后开始对脸上纹理做识别,这一下子把精确度从60%拉上90%,到2010年左右一直提到95%。FBI正在研究下一代人脸识别,在马路上对远距离的识别精准度也会到90%,将直接用于反恐。

第二,摄像技术。
你也许会问,如何能做到对脸上纹理做识别呢?原因之一是民用数码相机的像素从2000年左右的10万拉高到2005年的几百万,到现在是上千万。一个30万像素的相机能识别1米内的人脸,500万像素能识别10米。这样十字路口的摄像头对路过的人基本都搞定。

第三,计算能力。
像素越高、数据越多,要求的CPU处理能力要强。摩尔定律至今有效。2010年多核处理器开始普及到智能手机中,为快速运算海量数据准备了物质条件。还有人说,人脸识别的需求将引发芯片公司下一次大爆发。

第四,嵌入式芯片。
只有嵌入式芯片才能帮助识别技术迅速普及到各种终端上。以2001年为分界线,之前嵌入式芯片只能做简单的控制命令,之后可以处理逻辑。但2001年时相当昂贵。到今天成本一路下降到5美金左右,才可大规模民用。

上面四点加到一起,让一套人脸识别设备从10年前的几万块下降到现在的几百块。

第五,摄像头普及。
工具有了,剩下还需要原料。也就是有足够多的摄像头随时随地把人脸拍下来。中国一线城市在2004年启动了平安城市工程,要在主要街道抓拍车牌等视频信息,后来北京等城市逐渐增加了抓拍人脸的需求,以及相应的增加了录像、存储和监控设置。现在深圳市有25万个摄像头,核心地段每平米就有1个。

到此为止,万事俱备。

对于未来的世界。戴卫东这样描述:
我们可以不再依据脸来识别人的身份,而可以依据步态。你走路的样子就能暴露你是谁,摄像头就算离你有100米远也能精确判断。你微小的一点表情,也许你对面的人都没觉察,但计算机已经知道你不高兴了。说不定用不了几年,Google Glass上就会这样的提示。

酷吧。