我将进化成一条狗(2)——大数据

来源:互联网 发布:淘宝直通车出价公式 编辑:程序博客网 时间:2024/05/01 12:46

提起大数据,稍有了解的人都会想到两本畅销书,一本是涂子沛先生的《大数据》,其实他的英文名《The Big Data Revolution》或者说“The Data Revolution”能更好的描述其内容。这本书通过讲述美国半个多世纪信息开放、技术创新的历史来解释数据创新给公民、政府、社会带来的种种挑战和变革。另一本是维克托·迈尔-舍恩伯格和肯尼思·库克耶合著的《大数据时代——生活、工作与思维的大变革》,这本书大体厘清了大数据的基本概念和特点。作者列举了众多在公共卫生、商业服务领域大数据变革的例子,来阐述大数据是带来的思维、商业和管理的变革。

除了两本书之外,还有两个经常会被提起的故事:

第一个故事是说几年前,一个美国家庭收到了一家商场投送的关于孕妇用品的促销劵,由于很明显促销劵是冲着自己16岁的女儿来的,女孩的父亲觉得受到了侮辱,于是怒气冲冲地找到了这家商场讨说法。为了平息这位父亲的怒气,商场做出了诚恳的道歉。但是不久,这位父亲发现,其16岁的女儿真的未婚先孕了。那家商场之所以能未卜先知地知道该女孩怀孕,是因为该商场通过若干种商品的消费数据建立了一个怀孕预测指数,以此来预知其顾客的怀孕情况。

第二个故事是1936年美国第32任总统富兰克林·罗斯福为了取得连任,与共和党的兰登对垒。当时有一本叫《文学文摘》的杂志风头正劲,因为它已经连续准确的预测了1920年、1924年、1928年和1932年的美国总统大选。这一年,《文学杂志》对240万普通公众进行调查之后,预测兰登胜出。与之相对应的,一家刚刚成立不久的研究所,只对5000人进行了调查,却宣布罗斯福会胜出,最后的结果大家都知道了,这家研究所就是大名鼎鼎的盖洛普民意测验所,官方名字叫美国舆论研究所。从1936年到2008年,盖洛普民意测验所成功预测了18次大选中的16次(其中一次错误还成功的误导了蒋介石把宝押在了杜威身上,导致后来败走偏隅)。盖洛普之所以成功,是因为它科学的选择了样本,让5000人的样本分布在社会的各个阶层、各个职业。

第一个故事已经说了大数据的最大作用:建立相关性。就是我不知道为什么,我就是通过大量的数据分析出来,之前买商品A、商品G、商品X的人后来买了孕妇用品,所以就把买商品A、商品G、商品X的人和怀孕建立相关性。第二个人故事说出了大数据的一个重点,大数据并不一定得大,但是得全,得多元;当然盖洛普研究所最近两届连连失蹄,是因为方法忽然又不科学了吗?我认为倒不是,是因为互联网兴起,导致人类更加多元了,比如在优酷看视频的人可能永远不能了解在B站看视频的人,在B站看游戏视频的可能也不了解在B站看纪录片的,这种情况下,人为的区分多元后去全面覆盖的采样已经是自欺欺人,既然人为采样的不行,那还不如所有的数据全部拿来,反正现在数据采集能力、存储能力和计算分析能力都够了,不怕数据多、杂、乱。

讲了这么多,除了两个讲预测的例子,我还没讲大数据到底是什么,大数据能干什么,能分析出什么。不急,我不会说,因为我也说出清楚,下面我要列出一本书的部分目录:

  • 构建基于Spark的的推荐引擎
  • Spark构建分类模型
  • Spark构建回归模型
  • Spark构建聚类模型
  • Spark高级文本处理技术

这本书叫《Spark 机器学习》,Spark是一个大数据处理引擎,是一个快速通用的集群大数据计算平台。不具体学习的话,可以先不管Spark,我手上的这本书的出版于2015年9月,也就是说,至少在当时,作者人为大数据可以用来做推荐引擎、分类模型、回归模型、聚类模型、文本处理等,我们把这些分别介绍下,各位可以对大数据是什么,可以做什么有一个概念。

推荐引擎背后的想法是预测人们可能喜好的物品并通过探寻物品之间的联系来辅助这个过程,试图对用户于某类物品之间的联系建模,来告诉用户有哪些商品他可能喜欢。其使用场景一般有两类:

  • 可选项众多:可选的物品越多,用户就越难找到想要的物品。如果用户知道他们想要什么,那搜索能有所帮助。然而最适合的物品往往并不为用户所事先知道。这时,通过项用户推荐相关物品,其中某些可能用户事先不知道,将能帮助他们发现新物品。
  • 偏个人喜好:当人们主要根据个人喜好来选择物品时,推荐引擎利用集体智慧,根据其他有类似喜好用户的信息来帮助他们发现所需物品

分类模型是根据一组特征来判别其类型,也就是说建立一个特征数据和类型的模型。构建分类模型的过程经常是一个监督学习的过程,学习嘛,就得做一大摞《五年高考三年模拟》、《黄冈密卷》啥的,监督学习就是老师监督着,做完了才能去找他对答案,告诉你做的对不对,没对就从错误中学习,最后学会了上考场。对应到构建分类模型,也就是先有很多已经分类的数据(有答案的黄冈密卷),让计算机去分类,然后和本来分好的类别(答案)做对比,看对不对,最后经过不断的试错试错试错改正改正改正,形成一个比较正确的模型,就可以拿来真正的用于分类了(上考场)。分类模型有很多使用场景,下面列举比较典型的几个:

  • 预测互联网用户对广告的点击率:点,还是不点,这是个问题
  • 检测欺诈
  • 预测拖欠贷款
  • 对图片、视频或者声音分类
  • 对新闻内容或者网页进行标记类别或者打标签
  • 发现垃圾邮件、垃圾网页、网络入侵或者其他恶意行为
  • 预测用户或者顾客中谁可能停止或者使用某项服务/商品

回归模型与分类模型的结果是表示类别的离散变量不同,回归模型的输出结果可以是任意实数。回归模型的建立也是一个监督学习的过程,他的使用场景也相当多,下面举几个比较典型的例子:

  • 预测股票收益和其他经济相关因素
  • 预测贷款违约照成的损失(分类定性,回归定量)
  • 基于用户的行为和消费模式,预测顾客对于零售、移动或者其他商业形态存在的价值。

聚类模型与分类模型类似,只不过聚类模型是非监督学习。也就是,给一套黄冈密卷,没答案,你就去做吧,反正最后是要上考场的。不过既然是聚类模型,一般是给定了类簇的,也就是这套卷子是选择题,虽然还是没正确答案。聚类模型主要用于收集训练数据(有答案的黄冈密卷)成本巨大的时候,应用场景和分类模型差不多,下面也举几个例子:

  • 基于行为特征或者元数据将用户或者客户分成不同的组
  • 对网站的内容或者零售店中的商品进行分组
  • 找到相似的基因的类
  • 在生态学中进行群体分割

文本处理其实没什么特别的,就是从文本中提取特征,换句话说,我有一段文本,想让电脑理解这段文本说了什么。其复杂性源于两个方面:其一,文本和语言有隐含信息,仅仅捕获字面意思远远不够。其二,文本数据的有效维度一般都非常巨大甚至是无限的,有效维度就是指我们要提取的特征的维度,毕竟在上面的分类模型、回归模型中一般是从大数据中提取出有限的维度的特征并根据这些特征建模,可是一段文字的特征就比较复杂了甚至是不固定了。文本处理的最大应用场景就是自然语言处理了,下面列举几个自然语言处理的例子:

  • 机器翻译
  • 输入法输入联想
  • 根据时间地点事件生成新闻稿

现在对对数据可以做什么有一个大概的了解了吧,总的来说,就是根据海量多维的数据提取多个维度特征,建立相关性,消除不确定性,没类别的分类,没标签的贴标签,没数值的预测数值,对象包括人、物和未来!需要海量数据是因为根据切比雪夫不等式,当样本数足够的时候,一个随机变量和它的数学期望值之间的误差才足够小。这里的数学期望值就是通过模型计算出来的值,而随机变量就是真实值。需要多维数据是因为本就需要提取多个维度的特征值。

数据从哪里来呢?下面我讲引用吴军博士的《智能时代》里的一段话:

Google之所以花如此高的加个购买nest,最主要的目的是获取每一个家庭的数据。nest智能空调控制器的工作原理是靠追钟家里人在每一个房间里的活动,比如几点回家,几点看电视,几点吃饭,晚上都待在哪里,什么时候睡觉。

连号称Don’t be evil的谷歌,都如此亟不可待的侵入每个人生活最深的角落,谷歌搜索的数据收集精细到记录了我们鼠标在每一条搜索结果上停留的时间!

我们再来列一个阿里巴巴近几年投资或收购的部分企业列表:

  • 搜索引擎:雅虎中国、搜狗
  • 本地生活领域:口碑网、美团、快的打车、高德地图
  • 电商服务:中国万网、宝尊电商、深圳一达通
  • 社交与移动互联网:微博、陌陌、UC浏览器
  • 文化领域:虾米网、优酷土豆,华数传媒
  • 金融领域:恒生电子、天弘基金
  • 物流:百世物流、星辰急便、日日顺物流、新加坡邮政

2014中国年度管理大会上马云说,我们今天阿里巴巴公司本质上是一家数据公司,我们做淘宝的目的不是为了卖货,而是获得所有零售的数据和制造业的数据。2015年华盛顿尼尔森全球论坛上阿里巴巴CEO张勇说,当我们自我定位时,我们从来没有把自己仅仅看做一家电子商务公司,我们是一家数据企业,一个数据平台。再结合收购列表,阿里手上得有我们多少数据,多少个维度的数据,能把我们分析到一个什么程度?

我是什么人,我有多少钱,我喜欢什么东西,我需要什么东西,我经常去哪里,我喜欢什么人,说不定我自己都不知道我喜欢什么的时候,他就知道了。

从另一方面来说,有了大数据,信用成为硬通货,谎言注定无效。毕竟我吹牛逼吹的天花乱坠,晚上发微博的定位是个城中村,那我的标签就是24K纯屌丝。什么,你说你不发微博,就算发也不定位?那我就问你用不用高德地图,用不用嘀嘀打车,用不用共享单车,用不用淘宝外卖,网购写不写地址,用不用陌陌?全部不用?哦,原始人你好,原始人再见!我可是只举了阿里系的例子,还没说另一个马爸爸家的产品。还有人说,我就是一普通人,他们费老大劲算计我干啥?对呀,那个被送孕妇用品促销券的女孩也只是商场的一个普通顾客,算的就是你。虽然通过大数据训练我们上面说的那些模型非常耗费计算资源,但一旦模型出来,算一个人的时间就是以微秒甚至是纳秒计算的。

有没有可能在未来,大数据可以精确的预测到一个人的未来,世界的发展呢?我认为起码在可见的未来是不可能的,毕竟现在大数据的预测相当蠢,用一个著名媒体人吴伯凡打的比方:我就是在饭前等菜来的时候吃了一粒花生米,结果他就预测我喜欢花生米,给我上了一桌子花生米。至于未来怎样,目前还不得而知,如果真能精确预测每个人的未来,那世界就将相当恐怖,人类文明可能就此毁灭,在此我不做阐述,有兴趣的请看刘慈欣的小说《镜子》。但是,那些不怎么变,思维形态相对固定的人,几年之后怕是就要掉进大数据的彀中了。



欢迎扫码关注我的微信公众号获取最新文章
image

0 0