大数据的价值是如何得以彰显的？

来源：互联网发布：辣鸡软件表情编辑：程序博客网时间：2024/05/04 19:06

说明：原文2016-09-22发表于阿里云云栖社区https://yq.aliyun.com/articles/60878

大数据价值的最大彰显——计算广告？

大数据有价值，这个观念似乎已得到很大程度的认可。

当然，也有质疑的，比如《21世纪商业评论》的发行人吴伯凡先生，他就曾说“大数据本质上是一种垃圾”。但话锋一转，他又说“如果你有好的方式，把这些垃圾，好象没有用的东西，你能够提炼出来，加工出来，那就是很有用的。”

这其实就是大数据的特征之一——“价值大，但密度低”的另一种翻版说法，也就是说吴先生并没有真的认为“大数据就是垃圾”。
那么我们怎样才能让大数据变废为宝，使其价值是得以彰显的呢？

在回答这个问题之一，我们先找几个没有什么争议的大数据公司，看看他们是怎么玩的。

大数据公司的第一道门槛，就是你得有大量的数据（此外的门槛，还包括具备大数据思维和能出活的数据工程师）。在互联网领域的公司，在这个方面有着得天独厚的优势。国外的Alphabet（谷歌母公司）和Facebook，国内的BAT（百度、阿里和腾讯）都可以算是比较彻底的大数据公司。我们来看看他们2015年的营收情况（如表1所示）。

表1 几个大数据公司的2015年的营收情况

公司 Alphabet Facebook 百度阿里腾讯总收入（亿美元） 817.62 179.28 102.23 122.93 158.41 广告营收（亿美元） 732.23 170.83 100.78 77.04 26.90+87.14 广告所占比例 89.55% 95.28% 98.58% 62.67% 16.98%+55.01%

从表1可以看出，广告营收分别在Alphabet和Facebook整个公司营收的绝大部分，其比例分别为89.55%和95.28%。我们再来看国内的广告巨头，2015年百度102.23亿美元的收入里，其中广告收入达到100.78亿，其比例达到惊人的98.58%。阿里巴巴（62.7%）和腾讯（55.01%）的比例亦不容小觑。腾讯之所以用加号（+）单独一列，是因为腾讯的部分广告收入和游戏收入搅和到一起了，剪不断，理还乱，如它的游戏联运（16.98%），既可以算得上游戏收入，但其在本质上也可归属于广告收入。

从上面所列的数字，可以给我们带来一个直观的感受，那就是互联网行业的大数据公司，其核心商业价值的彰显，竟然就是赤裸裸的广告。但是，这里的广告，并不是我们传统意义上的线下广告，而是通过一种付费内容的载体，是对流量和数据进行变现，与传统广告有非常大的差别。

计算广告的最大挑战是什么？

大数据专家刘鹏先生认为[1]，不了解计算广告，就不可能深入地了解互联网，也不太容易真正理解大数据。那么，什么是计算广告呢？

计算广告（Computational Advertising）是一门正在兴起的交叉学科，致力于采用数据挖掘（如大规模搜索、文本分析和信息获取）、机器学习等人工智能手段，结合用户反馈，行为分析，甚至心理学等，来提高广告相关性，交互性，实现广告主、广告网络（如AdSense）和用户的自动化匹配。

我们知道，大数据的核心价值就是预测。

作为大数据和核心应用之一，计算广告，更是如此。它要完成的核心任务，就是预测哪些用户对哪些广告感兴趣，然后据此推送相应的广告。

说得更加学术点，就是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。

这里的语境，可以是用户正在访问的网页，也可以是用户在搜索引擎中输入的关键词，还可以是用户正在看的书、听的音乐等。潜在广告池的广告数量，可能达到几十亿，而用户的数量也同处于这个级别。故此，这个“最佳匹配”，面临的最大挑战就是在复杂约束条件下的大规模优化和搜索问题。

简单来说，在数以千万（甚至上亿）级别的网络用户反馈形成的、快速变化的数据空间，计算广告并没有确定的“ground truth”（地面实况，即用于有监督训练的训练集的分类精度），同时它也无法通过均匀地对总体空间进行采样，构建鲁棒性很强的训练集。更为要命的是，其建模的对象，是人的行为，而人的行为又极大程度地受到系统输出的影响。

人类学家兼数学家托马斯·克伦普在其著作《数字人类学》强调[2]，数据的背后，其实就是人类。确切来说，数据，在本质上，是人类观察世界的表征形式。研究数据，在某种程度上，就是在研究人。计算广告领域的研究，尤其如此。
前文我们提到，大数据的核心价值就是预测。而预测通常分为三个层次（如图1所示），最内层是对人性的预测，这个其实不用预测，人性使然。比如，人饿了会怎样？他（她）会找事物吃，不找东西吃会饿死。手碰到火后，又会怎样？他（她）会很快拿开，手不拿开会疼。

大数据预测的三个层次
图1 预测的三个层次

预测的中间层就是趋势，这是大数据的拿手好戏。著名哲学家奥古斯特·孔德（1798年~1857年）认为，人做个体是无序的，具有“自由意志”，但样本增加至全社会，大数定律就会发挥作用，人们就可以从中发现稳定的规律。200多年后的今天，全球复杂网络研究权威艾伯特·拉斯洛·巴拉巴西(Albert-László Barabási)，用大数据分析支撑了孔德的观点，他在其著作《爆发》表示[3]：人类行为93%是可以预测。

预测的最外层就是对习惯的预测，某种程度上，也就是对个人“自由意志”预测。这个是最难的。比如说，前天我吃了汉堡，昨天我也吃了汉堡，今天我还吃了汉堡，你能预测我明天吃什么吗？的确有可能，我明天还吃汉堡，但连续三天都吃汉堡，我完全更有可能由于吃腻了，换个口味啊。但是基于数据的归纳法（这是人类绝大多数知识存在的根基），很容易得出预测的结论：我明天还吃汉堡。这种预测，哪里是预测，明明就是对个人自由意志的“猜测”，准不准，天知道！

而计算广告的受众对象，就是对个人行为习惯（自由意志）的预测，所以我们可以给出一个推论，计算广告的预测效果，肯定不会太好！人心叵测嘛！

那为什么如前文所列的大数据公司（如Alphabet、Facebook及国内的BAT）的广告效益，还这么好呢？其实他们取胜的秘密，也很简单，那就是单位广告成本极低，但规模超级大。

虽然我们说了，计算广告的预测效果注定不会太高，但还是比毫无根据的“瞎猜”好很多。还拿前面的例子说事。如果我们有了“前天我吃了汉堡，昨天我也吃了汉堡，今天我还吃了汉堡”的数据，计算广告的确不能很准确地预测我明天吃什么，但总比一个人完全不知道我过往的饮食习惯，在成百上千种食物中，瞎猜一种，其预测准确率要靠谱一些。

胡适老先生曾经说过一句名言，“怕什么真理无穷，进一寸有一寸的欢喜。”套用到计算广告上，我们也可以说一句，“怕什么预测不准，提高一个百分点，有一个百分点的收益。”

的确，哪怕把广告的转化率提高一个百分点，架不住计算广告推送的规模之大，其收益也是相当可观的。这就好比，一块钱不算多，但如果每个中国人都给我一块钱，那我就是亿万富翁了，原因很显然，中国人口基数太大。

因此，计算广告还是很有搞头的。

计算广告是如何变现的？

我们知道，当前互联网产品的大趋势，就是免费！

可是互联网企业也要活下去，他们也需要有变现的的资产。那些可变现的资产又是什么呢？

总结一下，互联网行业可变现的核心资产，主要来自两个方面。第一个方面，也就是最简单粗暴的方式——利用流量（traffic）变现。

什么是流量呢？就是有人访问你的网站，或者有人在用你的APP，在这些产品中，除了放用户感兴趣的内容以外，还可以放一些付费内容（Sponsored content），也就是广告。在正常内容里夹裹付费内容，就是流量变现的基础。这个容易理解，有点类似于很多人都爱看电视剧，那么电视台就可以把广告，插播在电视剧里。你想看电视，就得看广告！

但电视台播放广告的弊端也很明显，那就是“千人一面”——所有人看到的广告都是一样的，这样的广告转化率势必不会太高。如何提高广告转化率呢？

除了流量能够变现之外，互联网公司还有一项非常更重要的法宝，那就是数据！

简单地说，通过大数据（特别是用户的行为大数据），互联网公司可以做到较为精准的用户画像，据此判断用户偏好，然后再根据这些偏好，提高付费内容的转化率，这是数据变现的基本原理。

那么这些用户大数据又是如何得来的呢？自然都是来自各种免费的互联网产品，当用户在用这些产品过程中，就会留下蛛丝马迹，互联网公司就会收集这些信息，据此猜测这个用户的属性，比如购物偏好，然后再根据这些购物偏好，来投送相关的付费内容，这比没有任何的指导来投放付费内容，它的效果肯定要好一些。

刘鹏先生提供了一个精彩的例子[1]，如图2所示，可以辅助读者理解一下数据变现的原理。这个图的左半部分说的是流量变现。比如说，假设我们有个网站，每天有10万的访问量，那么就可以在上面放一个广告位，这个广告位可以有个报价，比如说5000块钱，这就是流量变现的价值。

数据价值的体现

图2 数据价值的体现

但是这种流量变现的方式，并没有最大化发挥数字广告的优势。因为剃须刀广告的有效受众，基本上都是男性，因此，这个流量里边，有一半的女性受众是被浪费了，那么，该如何合理利用另一半流量呢？

再看图2所示的右半部分，实际上，在计算广告体系里，我们完全可以做到，仅仅把男性的一半流量留给这个剃须刀广告客户，对于这个客户而言，它的有效受众的触达，其实并没有损失，但由于他只用了一半流量，因此可以给他打个折， 3000块钱就可以了。
如此一来，对流量变现的互联网公司而言，它还剩下一半女性的流量，他可以用3000的价格卖给另外一家做化妆品的广告主。对互联网公司来说，它挣到了更多的钱（6000块）。对于广告主而言，他也是满意的，因为他只用花3000块钱的成本，就获得了原来他要花5000块钱成本，才能触达的有效受众。所以，这是个双赢的生意。

实际上，我们知道，天下没有免费的午餐！在我们的工作生活中，基本上，存在一个利益守恒原则。也就是说，如果你在某个方面获得了利益，通常是会在其它方面，以某种形式（或显式的或隐性的）牺牲利益为代价，换回来的。

双赢（或多赢）是不符合利益守恒原则的。既然是双赢，一定需要新的资源加入到这个利益分配过程当中，那么这个资源是什么呢？实际上，这就是数据的价值，也就是我们一直说的数据变现的秘密。

计算广告的收益——我们付出了什么代价？

互联网公司之所以能得到这1000块钱的溢价，是因为他们有了每一个用户的性别数据。如果再接着问，他们为何能有这些数据，还不是我们用户“免费”使用了人家的产品嘛？

我们在享受互联网公司提供的免费“午餐”时，付出的第一个代价，就是不经意间泄露了我们的个人隐私数据。你看看，天下哪有免费的午餐？免费的背后，其实是都是要付出代价的！

天下没有免费的午餐，不光是个普世化的认知，在计算机科学领域，甚至还给出“没有免费的午餐定理(No Free Lunch，简称NFL)”的理论证明。该定理是由美国圣菲研究所(Santa Fe Institute) 教授Wolpert和Macready等在1997年提出[4]，其结论是由于对所有可能函数的相互补偿，最优化算法的性能是等价的。该定理通俗来说，如果某个算法在某个场景下，获得了最优性能，但它在其它场景下，一定付出了性能代价，不可能在什么场景下，你都最牛。就看当前场景下，算法优化后的性能改善，和付出的代价相比，值还是不值！

苏萌、柏林森和周涛等人曾合著了一本书，叫《个性化：商业的未来》[5]。我们不能说这本书的观点是错的，但如果这本书的观点是正确的，根据NFL原理，我们同样也可以写另外一本对应的书籍《隐私获取：大数据公司盈利不得不说的秘密》。
因为所有的个性化服务，都必须以获取用户个性化的信息（即隐私数据）作为前提，没有个性化的数据，自然就不会有“贴心”的个性化服务。

计算广告盈利水平的提升，离不开用户隐私数据的获取，而现象用户的大数据隐私保护，也是计算广告绕不开的研究话题。

参考文献

[1] 刘鹏, 王超著.计算广告：互联网商业变现的市场与技术[M], 人民邮电出版社,2015
[2] 托马斯·克伦普（著），郑元者（译）. 数字人类学[M], 中央编译出版社, 2007
[3] 艾伯特•拉斯洛•巴拉巴西.爆发[M]. 中国人民大学出版社.2012-6
[4] Wolpert D H, Macready W G. No free lunch theorems for optimization[J]. IEEE transactions on evolutionary computation, 1997, 1(1): 67-82.
[5] 苏萌，柏林森，周涛著. 个性化：商业的未来[M], 机械工业出版社, 2012

作者简介：张玉宏，著有《品味大数据》一书。

0 0