TalkingData CEO 崔晓波:用数据的心智去超越!

来源:互联网 发布:铃声助手for mac 编辑:程序博客网 时间:2024/04/29 00:40

2016年9月14日,由国内领先的独立第三方移动数据服务平台TalkingData主办的,数据领域一年一度的行业盛会——“T11 2016暨TalkingData智能数据峰会”在北京中国大饭店圆满落幕。国内外各领域的数十位数据专家、行业精英、知名学者齐聚一堂,深入探讨了业界建设性议题,引导行业方向,创造海量商机。

以下为演讲内容分享:

崔晓波:欢迎大家来到T11现场。先分享一些数据,今天来到现场的专业观众有3112人,来自于金融、地产、零售、政府、营销、出行、互联网、IT等行业,其中占比最多的是金融行业,我们看了一下刚才的数据统计,金融行业的嘉宾占到了本次参会人数的32%,所以毫无疑问金融行业走在大数据应用前列。另外这次参会嘉宾的质量非常高,刚才看了一下门口的人群画像,包括这次教育水平、收入标签以及人群的职业标签都揭示了这一点。

本次大会是智能数据峰会,为什么有智能这个词,大家知道今年以来又出现了很多热词,不止是大数据,人工智能、深度学习、无人机、AR、VR,所有这一切好像跟我们相关,但好像离商业价值又那么远,他们之间到底跟数据有什么关系,有没有可能给我们的企业,给我们的行业创造价值,这是本次峰会想跟大家一起探寻的问题。

在我看来整个人类的发展历史,就是人类不断的尝试去记录或者测量自身和世界的过程,古时候人类发明算盘,发明阿拉伯数字,到近代发明二进制计算机。好像都是这一现象的反应,但是人类对自己,对世界的认知好像还是那么浅,比如描述一个人的时候还是只能说这个人的性别是男是女,这个人的年龄是老是少,这个人的身高、体重等等……

以人为中心的世界,正在全面加速数字化进程

移动互联网时代下,跟大家分享一组数据,根据TalkingData的数据统计,在中国,智能手机已经拥有13.05亿用户,智能手表这些可穿戴设备已经达到千万级,这意味着什么?智能手机、智能设备基本上人手一部甚至多部,无处不在,无时不在。

物联网的发展:智能手机之所以叫智能,一方面有丰富的应用,另外一方面更重要的是它有大量的传感器,好像我们这些数据从业人员迎来了历史上最好的时刻——数据爆发的时刻。现在所有这些其实都意味着以人为中心的世界实际上在全速数字化的进程,数据爆炸的时代人包括人工智能带来对世界认知能力的改变。

基于数据的人工智能——感知、识别、认知、预测

人工智能对世界的认知包括这四项,第一感知,有大量传感器可以帮助我们收集人体及自然环境各种各样的信息,在一部小小的智能手机里边,就算我们不算摄像头,不算麦克风,依然包括加速的传感器,三轴的陀螺仪,包括温度、湿度、气压、压力等等,平均一部手机,根据TalkingData显示,包含13到16款内置的传感器。

这些传感器它是怎么产生数据呢?如果我们把这个传感器都激活,每个小时会产生千万级的数据,这些意味着什么?物联网的发展,智能手机的发展,依然对我们现在人工智能最浅层的,哪怕数据的运算、存储、传输等等领域依然存在着巨大的障碍。这个问题怎么解决,我会在随后的演讲揭示这个答案。

第二,识别。大量的数据上来了,人工智能怎么识别这个社会,怎么识别这个世界。实际上我们好像感受到了现在语音识别的技术,图象识别的技术都在大规模的发展。我今年4月份去硅谷的时候,跟很多合作伙伴都有过交流。我们看到一些创业公司,比如给健身人群提供算法的公司,我们去测它的程序,预测了很多人的姿态,比如你是不是在举重,是不是在打高尔夫,都可以清晰识别出每个人的状态,帮助你计数。

我们也跟很多大的合作伙伴,比如说谷歌、脸书交流的时候,发现所有的公司都在转型做AI和深度学习,我回来的时候很多同行问我,说你们在硅谷投资了很多公司,为什么?你们看到了什么?我说很简单,只看到了一个东西,就是所有世界上顶尖的技术公司都在做一件事情,就是尝试用算法用机器学习去还原人在现实生活中的动作,不管视觉、听觉、姿态、感知还是做一些基础的工作。

我们再来谈一谈认知,目前好像机器学习的算法很强大,为什么呢?因为它居然可以在复杂的路况环境下开车,可以帮助医生诊断病人的病症,这在十年前是完全不可想象的。但是认知到了什么程度,坦率地说:所有这些前沿认知的技术还处于一个早期的阶段,所以不管最近无人驾驶出现的问题,还是目前出现的一些医疗的情况,都预示着人工智能对世界认知停留在早期阶段。

预测谈不上,我们当然希望人工智能也好,人也好,能帮助我们预测未来,哪怕预测股市也好,这一切我们觉得离我们还是很远。为什么跟大家分享这些。这些技术发展的程度到底是什么样子,目前在识别,包括在认知,产生很大进展的原因首先是数据量带来的。大家知道我们在语音识别方面取得了很大的突破,大家知道谷歌是建立了几十亿音频的库,而且用人类的智慧标注它,所以可以用算法,用人工智能找到模式,甚至可以区别口音不同,图像也是同样的。过去几十年里,其实人类花了大量的时间去标注这些图像,我们才能在图像里面切割识别出各种各样的物体,没有这些人的智慧现在人工智能是达不到这样的程度。

人的智慧,AlphaGo背后的故事

AlphaGO,我今年也有幸经历了这次历史性的事件,今天分享的是AlphaGO背后的故事,作为这个行业里面的一员,大家看到的更多的是搜索的应用,加强的训练方法等等,可以跟自己对战提高,我看到的却不是。我去探究过这个问题的终极答案,我去了美国,我找了所有除了谷歌外也在做围棋的顶尖程序的工作者,包括脸书,我代表中国企业跟所有这些程序都对弈过,让我非常惊讶,我都赢了。为什么?大家都忽略了一个非常重要的东西,就是人的智慧。

代表AlphaGo跟李世石坐下来对战的那个人本身就是六段的高手,他在训练AlphaGo时,加入了大量的人工智慧,加入了大量的人为规则,让它少走弯路,这些都是被人忽略的,我们过大强调AI的作用,但是在目前这个时代,让算法、让机器代替人做判断这个事不会发生,在目前的情况下还是要引入很多专家的智能,人的智慧,在数据科学以及数据工程不断完善的情况下,去提高AI的水平。

智能数据时代已经到来

前面我们谈了大数据的爆炸,人工智能的发展状态,以及人的智慧在里面起的关键的作用。所有这一切隐隐约约地让我们在座的企业家,好像感觉到一个新的时代要来了,这个时代是什么,我们觉得这个时代是智能数据时代。而这个时代最重要的三个要素是什么,数据、AI,人的智慧(HI)。

智能数据时代的贝叶斯定律

听我说了这么多,跟在座的各位又有什么关系。我们到客户那里,基本上客户只问我们一个问题,好像大数据这个系统投入很大,到底有没有价值,到底怎么产生商业价值,商业价值又往哪个方向投入,这个问题的终极答案会在这个时代得到揭示。大家有听过贝叶斯定律吗?

贝叶斯定律是大数据时代最重要的定律,无处不在,所有的机器学习算法、图象识别、语音识别,所有的一切统计方程式后面都是这个定律在起作用。

我简单介绍一下,贝叶斯定律强调的是靠人的智慧,在没有那么多数据,没有那么多统计池,没有大数据的情况下怎么办?先靠人的智慧去确定一种方案,做一个决定,后续不断的通过吸收数据来调整方案,数据量越来越大,最后能得到一个接近现实的结果。

TalkingData提出的贝叶斯定律是什么,在智能数据时代,企业的商业价值会和基于数据的人工智能的发展以及基于数据不断提高的人的智慧,成正相关关系,这是我们提出的贝叶斯定律。在座企业家如果还问向哪儿投资,就向他们投资吧,我们要改善员工的状态,引进更好的人才,我们要夯实数据基础,这一切就是贝叶斯定律能够带给我们的,我希望大家能记住它,这个公式也是我们数据科学家打破脑袋才想出来的。

智能数据时代企业面临的挑战

未来好像很美好,我们迎来了新的时代,但这个时代来的时候企业依然面临着这些非常现实的挑战。跟大家分享一下一个非常有意思的数据,最近跟好几个券商包括零售行业的客户谈的时候,他们危机感很强,他们说我们门口有野蛮人,我们有非常多的互联网企业在跟我们竞争,他们随时可能能拿到牌照,他们来了我们就完了,我们也看到银行有同样的顾虑。

第一个分享是这样的,根据TalkingData的显示,只有20%的数据在互联网上,80%的数据还是在座的诸位手里,在传统的企业,在你的业务流程里面,但是这些数据去哪儿了。既然有这么丰富的血液,为什么还贫血?我们认为是以下四个工作确实没有做好,第一业务数据化,听起来好像是一个非常简单的问题,一切业务都可以数据化,但经过我们这几年服务客户的经验,各种各样的客户确实做的不好。

拿金融企业举例,我们看到金融企业更多积累下来的是交易数据,是资产数据,是他的非常浅层的客户资料。在智能数据来临的时候,你的客户产生大量的行为数据,散落在你的移动APP里,散落在网站里面,甚至散落在合作的供应商手里,这些非结构化的数据一直没有被有效的管理起来。

第二,我们是不是真的按照数据驱动的方式设计我们的KPI,明天的峰会场里边我们会有很多行业指标去发,为什么?因为在任何一个行业里面,就像我们当年做游戏行业一样,要先定义行业指标,要知道所有数据运营的核心是什么,因为传统企业跟互联网企业比起来最大的不同是什么,其实在于互联网企业业务就是运营,运营就是业务,分不开的。但现在在我们传统企业里面业务是业务,运营是运营,没有形成一个闭环,所以这依然是非常大的挑战。

第三,数据如何资产化?这个其实我想强调一点,因为我们现在去一些企业里边,这些企业经常问我们,你们TalkingData的智能数据平台跟我的BI系统有什么区别,甚至跟我所谓的数仓一些传统业务数据库有什么区别?大有区别!问这句话的企业往往没有意识到时代在变,我以下说的这句话大家可以记下来。

变在哪儿,原来的企业是以业务为中心的,我要开户,我要买资产,我要服务客户,所以这些系统会有大量的副产品,这个副产品叫什么,是数据,总得找个地方存起来,建商业智能系统,怎么用再说,更多是给领导出几个报表,不是真正驱动我的业务。现在的时代是什么?我坦率地说智能数据时代来的时候会倒过来,数据会变成企业的核心资产,慢慢会发现你们现在的业务系统很多是给它服务的,你做这个业务可能本身都不赚钱了,只是给我积累一些数据,以使我提供其他智能数据的应用,所以这一切在变。如果企业还不变,不把数据当成核心资产运营就OUT了。所以这更多是观念上的调整。

第三,应用场景化,因为时间关系,我就不展开,但是我想强调的是什么,其实并不是所有的业务场景都适合智能数据应用,为什么?因为在这个时代,你要做一个产品强调什么?要超乎现有的体验,因为你在理解你的客户,客户也在理解你,他在重新改变对品牌的认知,以前是什么银行,什么券商,什么房地产公司,我可能就是看你的营业厅,看你的售楼处对你有认知。现在真的不是了,你跟它的每一个交互点都会改变他的认知。

第四个挑战,技术开源化。我们认为会很快到来。机器学习框架,算法框架,现在用的非常高大上的算法都会开源,至少你会看到很多开源的替代品,而这些技术主要在西方的公司手里边,如果把这些技术,这些算法,这些数据科学的能力和业务结合起来,给你的业务去服务,在不触犯用户隐私又符合企业法案的规定,不把核心资产暴露出去,否则银监会、证监会管理的标准依然是非常大的挑战。以往我看到的情况来讲,目前的企业在智能数据时代会碰到这些挑战。

除了这个挑战,更重要的是观念上的挑战。大家都在谈数据科学。我喜欢一句经典的话——数据科学就是把数据变成行动的艺术。每个企业它的状态不一样,有的企业可能只是达到了描述这个阶段,只是上了统计分析平台,我能大体描述出我的业务是什么样,有多少用户,有多少用户活跃,每个业务环节的转化率有多少,我各个渠道的情况怎么样,还没有达到诊断这个级别。我们的AR模型和TPU模型一定会推动整个企业向下一个阶段演进,会进入诊断这个阶段,预测还远。

我们觉得在未来真的人工智能能够帮人做决定,但需要我们做大量的准备工作。如果你不接受这样的一个数据驱动的企业文化,你花再多的钱,投再多的人也没有用,因为没有从根本改变。大家跟我们合作的话应该会发现我们TalkingData不好的一点是我们特别挑客户,其实不是我们挑客户,我们深深知道一个客户是不是用数据说话,用数据驱动,不是的话哪怕我们帮你,我们觉得做的也是无用工,不能从根本改变,真的没法帮到你。

Smart DP智能数据平台

隐隐约约我们觉得在智能数据时代需要什么样的东西,我们暂时把它描述为智能数据平台,它能起什么作用?一方面企业里边有很多数据源,有资产数据,有客户资料,有财务数据,等等各种各样的数据,这些数据会不会聚合到这样一个以新的智能数据应用为核心的平台里边去。

这些数据进来之后,我如何去管理它,我如何完成注入、准备、加工、数据探索、可视化这一系列的环节,我如何去给外面的这些数据科学团队,这些算法公司安全有效的提供一个环境,在不拿走我自己数据的情况下把模型部署在这里,训练出真正有用的模型部署上线。我如何一步一步用数据工程的方法去改变我的组织结构,改变我的业务。右边有大量的数据应用,这一定不是我们自己都能做得了的,我们需要更多资源,需要外面新兴的创业公司帮我们,如果给这个平台下一个定义的话:“是指基于智能数据应用探索商业价值的平台,它需要具有数据管理、数据工程和数据科学的能力。”这是它的定义。

我觉得大家今天唯一拍的图就是这个,所有这些词在未来两到三年之内都是主流语。它强调的是商业价值,跟我们原有的IT系统真的不一样,如果这个平台不能证明有商业价值它就没有存在的必要,它需要具有数据管理,数据工程,以及数据科学的能力。我坚信未来一年会频繁听到这些词,他们是大家通向下一个时代需要了解的东西。

Myna和Fregata

前面是我们谈了我们的产品,接下来谈一谈技术,其实我们今天会有两个重磅级的框架开源。第一个框架是Myna,开始就提出的在智能数据时代,基于物联网的数据采集依然是非常大的挑战,TD过去两年默默做了很多工作,投资了很多公司,我们在打磨这个框架。

我们Myna框架里预制了人工属性,我们指出来这个人是谁,我们会预制环境感知引擎,他在什么环境,在家里还是公司,还是在医院,还是在餐厅,所处的场景是什么,行为识别引擎,他是什么姿态,他是在跑,还是在跳,还是在开车,还是坐地铁,坐在车上,坐在副驾上,大家觉得神奇吗?我们做了很长时间的研究,有一个模型的特征告诉我们,开车的那个人和坐在副驾的人转弯的角度是不一样的,我们才把这个难题攻克了。所有这一切作为在移动数据时代的技术领先者我们想回馈给社群的产品。

它在技术上也是相当优越,第一这种情景感知的场景要求是很高的,进入一个场景马上识别出来,我们采用大量的时间窗口叠加的技术,我们比国外类似的技术在同样识别率的情况底下速度提高三倍,大家知道谷歌有谷歌的框架,我们跟它比的话有非常优势,虽然国内用不了。

第二,情景感知是非常密集的计算过程,大量的计算带来大量的消耗,如果把普通传感器火力全开,20分钟就没电了,做过测试,耗电量是非常大的挑战,我们会根据环境去优化采样算法,比同样的算法模型,耗电量只有它的1/4,没有外部依赖,集成非常简单,所以这一切的话是我们今天要开源一个产品,在我们公司可以找到,并且可以下载。

人本数据——属性、场景、动作

在数据科学的方面,我们会开源我们的大规模的机器学习引擎,什么叫大规模,Fregata,是军舰鸟,飞的非常快,我们在十亿维度的情况底下根据容量自动调整我们的模型,自动加载模型的速度,根据我们的测试十个节点的情况下,内存加速的情况底下,十亿样本的维度上,可以在十秒钟之内完成整个训练过程。这意味着我们比BAT框架快十倍,所以这是我们给数据科学的礼物。

回到数据,最近我跟房地产商的老大谈,他问你卖给我的是什么,是一个软件吗?还是一个管数据的数据库?我说不是,里面是装满了数据的数据库给你。除此之外我们把所有的数据做了归类,我们觉得数据只有这样才能用,经常有人说数据有很多,又怎么样?数据是怎么用一定要清楚,数据有三要素。属性、场景和动作。它怎么用呢?作为的商业场景里边这个公式不分享了,无一例外什么样的人在什么样的情景底下会做什么样的动作,TalkingData所有的数据我们都在这个模型里,就是为了方便大家使用。

举个例子一个经常开车非常快的人,我会给他打一个标签,他处于一个上班但是雨天的路上,应该给他一个什么样的东西,可能是温馨的提示开慢点,小心路滑,在座都是企业,能够想出很多,在保险,在UBI,在证券,大量用实际的情景标签,这一切构成TalkingData的数据能力。记住一个词就可以了,活数据。

电信云公司 | 电信级运营商数据合作

接下来谈一下合作伙伴,这一年跟电信、电信云基地构成了战略合作,我们在一些商业场景里边比如营销获客,风控、反欺诈都是战略合作伙伴,电信在运营商是数据技术比较好的,所有的数据是集中在电信云基地,而且他们的隐私保护包括数据能力的控制也是我们看到做的比较完整的,所以这是为什么TalkingData愿意跟电信云基地这样的运营商去合作的一个原因。

海内外产业基金

大家已经意识到有这么多的东西,有数据,有产品,有合作伙伴,我们不得不引入资本的力量加速我们的布局。在过去的一年TalkingData我们放了两支基金,一支硅谷一亿美金,投资那些在美国在硅谷最先进的机器学习以及算法的公司,我们在国内放了一支四个亿人民币的基金,帮客户寻找在行业应用的合作伙伴,他们可以基于行业应用场景做出各种各样的基于数据的应用,这一切会促进整个生态的迅速形成,使我们的客户训练的进化到智能数据时代。这是我们在硅谷已经合作的领先技术公司,可能很多名字没有听说过,但是我认为这些公司它无疑成为五年或者十年最领先的公司。

基于全球顶尖技术打造中国顶级大数据平台

接下来简单过一下,大家看到有很多合作伙伴过来,所有这些合作伙伴是我们精挑细选的,不是随便请来的,现在的合作伙伴非常多,都是各个领域做的非常出色的公司。第一家竹间智能科技,硅谷有一个词很热门,聊天机器人,非常火,有几千家公司在做,有做通用机器人,有做专业聊天机器人,下面两家公司都是做这个的,提到竹间他们好像是创业公司,但是这个团队大有背景,大家都知道小冰,他的老板就是小冰之父,他们是世界上最顶尖的专家。

下一个云量科技,他们的产品非常有意思,股小量是智能投顾的产品,能够帮助我们的企业服务客户,不止和客户聊天,同时可以帮助你推销产品,大家感兴趣也可以去看一下,关注一下公众号,跟他们聊聊天,我太太就经常骂他都被骂回来了,也是做机器人聊天公司,这是最先进的技术。

脉策通过技术手段汇集各种各样的数据,数据交易市场汇集了城市的基础数据,以及TalkingData大量的数据,可以帮助我们房产企业做出各种各样的模型,该不该拿这块地,拿的价格怎么样,如何通过人口基数、商圈等合理的因子做出模型预估它,购房者的相似人群什么样,现在在上海做统计三个月开发十万,还有没有潜在的需求,他们已经跟很多大的包括万科、金地开始他们的业务,大大降低了营销成本。

盟广,华住旗下的一家公司,基于一些数据叠加TalkingData的数据我们做几个模型,酒店的潜客预测模型,基于场景的,什么情况下有可能住店,酒店价格的预测模型,选址模型,成本收益模型等等,这是行业与行业非常典型的应用。

集云,这个不多说了,如果去过它的展台一定觉得很酷,放了一个非常大的屏,不同的人过来显示的广告不一样,基于探针的技术,推荐不同的产品,以智能感知的技术顺应这个时代。

时间所限,没有办法一一过合伙人,现在已经有几百家的合作伙伴,而且速度上的非常快,我们希望以后有机会能够把更多的基于TalkingData的数据平台的合作伙伴,它的一些先进的用法能够跨行业的分享给我们的客户。

智能数据时代,企业大数据人才需求

我们谈了这么多,人还是最重要的,如果自己的能力不提升,谈什么都没有用。在智能手机时代企业人才的需求做了归类,大致分五个角色。数据科学家,这个比较好理解。第二数据分析师,因为是偏业务,真的理解我们的业务,跟后面的数据科学家沟通做成系统和模型。

数据工程师处理工程上的事情,如何抓数据,清洗数据,如何存储,如何计算。这两个是大家见的比较少的,数据架构师,这是在硅谷最热门的职位,就跟系统需要架构师一样,数据也需要,这种人才是非常缺的,可遇而不可求。数据产品经理,如何把你的数据和你的业务结合起来做成数据产品,如何提高客户的体验也是新的角色,所以这些是构成我们人的需求,缺口很大,不止在座的诸位,哪怕那些领先的互联网公司缺口也很大。

怎么办?首先我们TalkingData大学开设了一系列的课,从基础的架构,从流程运算等等这些计算类的课程到数据科学的课程如何做机器学习,如何做深度学习,如何应用深度科学在企业里边,如何管理数据资产,我们的数据资产管理,我们的个人隐私和安全法规这是TalkingData大学已经有的课程。在过去的一年里我们线下的课程培养了五千人,线上的课程如果大家感兴趣的话可以关注TalkingData的公众号,现在已经覆盖一百万人,对整个中国大数据领域起到了比较重要的作用。

除了数据科学家如何培养,我们今年跟全球最有名的机器学习竞赛平台办了一场举世瞩目的大赛,拿我们独特的移动行为数据出来,征集全世界的数据科学家帮我们预测,这个人的属性是男是女,他是多大年纪,所以到目前为止大家会发现响应这个比赛的有1700个团队,他们提交了两万多个模型,让我们脑洞大开,以前没有想到可以这么用,模型可以这么建,作为第一个中国公司也受到非常高的关注度,所以在比赛发布的当天和合作伙伴TURI一起发布了这个比赛。

上个礼拜发新闻出来苹果和TURI组建了他们的部门,正在招人,我们跟它一直在沟通,看看如何把这样一个机器学习的比赛延续下去。除了最顶尖的数据科学家如何培养高校的人才,大数据奖学金,跟高校合作,在这些同学毕业之后我们会把它放到基础实验室里跟TalkingData的科学家一起工作,合适的人才输送给我们的客户,我们希望能够帮我们客户培养出很多人才,所以这些人员的话会接触到最前沿的数据科学理念和技术。

企业如何激活数据智能

总结一下对于我们的企业客户来说如何跟TalkingData一起去迎接智能数据时代,构筑数据思维,丰富技术堆栈,聚焦商业结果,跟以前的系统真的不一样,我们一定要证明完全是有商业价值,我们要对外面的合作伙伴,外面的机器学习团队,算法团队,要有一个非常开放的合作心态,否则我们很难在这样一个比赛里面取得竞争优势。

给大家汇报一下我们过去的一些业务的情况。第一大家知道我们是比较挑客户,对大家是褒义的,我们在行业的头部覆盖率80%,Daas产品收入占比占到八成,过去三年里面我们企业客户的留存率93%,基本都持续合作下来了,收入同比增长三倍以上,我们是盈利公司,不用担心我们的现金流,在此非常感谢在座的客户,是你们的支持对我们的帮助让我们走到了今天。

TalkingData我们认为我们在智能数据时代会成为领导者,我们将海量的数据,领先的技术,以及全球顶尖的专家智慧完美的结合在一起,我们致力于数据的心智去改变企业和个人的思想,我们坚信数据的力量可以创造出无限的可能,我们将和我们的客户、合作伙伴甚至我们身边的每一个人一起去完成不可能,让我们一起Makeit happen,谢谢大家。

End.

0 0
原创粉丝点击