大数据将死

来源:互联网 发布:减速机选型软件 编辑:程序博客网 时间:2024/06/05 18:06

IT界造神的速度无与伦比,你方唱罢我登场,日新月异。即便如此,不像其他的流行趋势一样,“大数据”毅然坚挺了好几年了。有大数据相关技术的公司自我标榜以图稳固江山,没掌握大数据的也摩拳擦掌、跃跃欲试。在这个时代,如果你从事的业务和大数据不沾点儿关系,你还真不好意思说出来。


但没有人预见大数据的死亡,至少,没有人有这样的危机意识,看到大数据行将颓废。谁知道呢,也许几个月、也许几年。曾经风光无限的大数据即将被刻在墓志铭上。


1.客观规律必然决定“大数据”最终趋于平庸
IT行业从来不缺少话题,甚至,没有话题,IT行业就活不下去了。现在有谁还记得当年web2.0,JavaEE,SaaS,企业总线,BI,SOA的风光无限?“大数据”也必然如此,既然作为话题,那么必有盛衰。
根据高德纳(Gartner)公司2012年七月份的报告《Hype Cycle for Big Data,2012》(http://www.gartner.com/id=2100215),其并不认为“大数据”能在很长的时间内保持繁荣。


2.劣币驱逐良币
太多的挂羊头卖狗肉的、低品质的经销商或者供应商,将“大数据”这个词滥用,以至于不管是什么规模的公司,不管数据规模的大小,只要提供了存储和分析工具,就“大数据”了,就“高大上”了。其中很多分析工具采用的甚至是5年之前的淘汰技术!
这样所谓的“大数据”分析毫无意义,甚至为企业和消费者带来错误的导向,导致完全错误的决策过程。而非IT行业的人士又难以采用专业知识进行判定,久而久之,市场混乱,人们失去信心,最终导致逆淘汰。


3.“大数据”已经变成了“任何数据”
Fackbook早在2012年就存储了超过400亿张的照片,其数据量早就升至PB级别。摩根斯坦利也称:相对于用户和企业,大数据提供的信息已经远远超过了需求,并且还在以每年50%的速度递增。基于IDC(国际文献资料中心)的记载,在相关数据和存储方面的花费,全球每年超过1150亿美元!数据和费用的增量都是以几乎天文数字般在增长,并且增长的数据绝大部分难以产生经济价值而大部分时间都被搁置,这个绝对不能说是一个健康的行业生态环境。
谁是“大数据”的后继者?


在我来看,“智能数据”(smart data)才是“大数据”最理想的接班人。“智能数据”植根于统计及数学建模理论,更专注基于置信度高的中、小规模的特定的样本空间采集数据,以机器学习、行为预测为主要技术手段,对于个性化、定制化的需求,能够直接产生生产力和经济价值。
相对于“大数据”的社会意义,对企业来说,如果能够服务好给企业带来80%利润的那20%的客户,显然,智能数据更为高效。


起源

毛主席说过:没有调查就没有发言权。
毛主席还说过:你不了解你的敌人,你就无法战胜他。

一个非常有意思的事情是,艺术界是永远走在科学的前面的。大数据(big data)这个名词,早在1961年由哈尔·德拉博(Hal Draper)在一本科幻短篇《实验室发现的手稿》(MS Fnd in a Lbry)中,就提到了。这个科幻短篇以回忆录的形式描述了人类社会由于信息以不可思议的速度膨胀、以至于最后知识完全无法存储,也无法顺利被检索和传承,最终导致的灭亡过程。(有兴趣的可以自行google或者百度)


这和我们的世界何其相似。从上个世纪80年代以来,人均数据存储量平均每40个月翻一番,截止到2012年,全世界共有2.5EB(10的18次方)数据被创建。


但正式对大数据做定义,还是在2001年,由当时在META Group(现已被高德纳咨询公司合并)的分析师道格·雷尼(Doug Laney)做出。当时道格为大数据建立一个三维模型,即数据量(volumn)的持续增加、数据进和出的速度(velocity)、数据类型和源的多样性(variaty)。从这里就可以看出,所谓大数据,并不是当前中国某些IT水平底下的公司定义的那种所谓纯粹size上的“big”。META Group被高德纳合并之后,道格的3V模型一直被沿用到2012年。


2012年,高德纳将“大数据”的定义重新定义如下:大数据是海量(high volumn)、高速(high velocity)、高多样性(high variaty)的信息资产,这些资产需要新的处理方式,以便用来支撑决策制定、洞悉事实并且优化流程。到此为止,高德纳终于将“大数据”的完整而科学的定义了,不仅描述了大数据是个什么,还描述了大数据的目标是什么。这个模型将3V模型,扩展为3HV模型。再后来,某些组织(主要是学术机构,维拉诺瓦大学)在3HV模型基础上,又增加了一个V,即精准性(Veracity,或译作诚实性也可以)。将这个3HV模型变为4V模型。(当然了,现在业界普遍标准还是基于3V模型,但是笔者正是认为这个Veracity,敲响了大数据的丧钟)


如果基于3V模型来理解大数据,在目前中国的互联网发展来看,你可以即认为大数据将死,也或者可以认为大数据压根儿就没做起来。大家都只记得“大”,那“高进高出”呢?那“高多样性”呢?做的有点科班样子的,也就BAT了,剩下的99%都是挂羊头卖狗肉。
反过来再看看美国的情况,NASA使用大数据技术服务于航天天气预报及天文射电望远镜采集到的星图数据分析(瞬间高大上了有木有);美国联邦政府在2012年就宣布启动了大数据研究及发展计划,该计划包含84个大数据程序,横跨6个部,用于解决国际民生问题;咱就不再提ebay,亚马逊,沃尔玛和美联储了。
总之,在2012年之前,大数据是非常火的,本身的市场非常大,同时,也带动了相关无数的支撑行业,比如存储、云计算、虚拟化的发展。到2010年时,大数据的市场就超过1000亿美刀了,并且以每年10%的速度再递增。一切看起来都是那么的美好。


波澜

有许多学者就是这样,因读书太多而变得愚蠢。读书而不加思考,决不会有心得,即使稍有印象,也浅薄而不生根,大抵在不久后又会淡忘丧失。况且被记录在纸上的思想,不过是像在沙上行走者的足迹而已,我们也许能看到他走过的路径,如果我们想要知道他在路上看见些什么,则必须用我们自己的眼睛。
----叔本华

首先遭到质疑的是大数据的“范式”(paradigm,这词太高冷了,说大白话就是在科学领域,思考和解决问题的方式。这里再次吐槽下,IT人普遍的特点就是把简单的事情复杂化,以彰显自己的价值)


在2012年,克瑞斯·施耐德(Chris Snijders),乌韦·马特扎特(Uwe Matzat)和乌尔夫·迪特里希·雷普(Ulf-Dietrich Reips)在《大数据:互联网领域的巨大知识鸿沟》(“Big Data”: Big Gaps of Knowledge
in the Field of Internet Science,参考:http://www.ijis.net/ijis7_1/ijis7_1_editorial.pdf)文中说到:我们对于现在互联网大数据的特点,和引导大数据兴起的、基于经验主义微观方面的联系一无所知。在大数据层面做出的一些数学属性上的强假设(very strong assumptions),并不能反映微观层面真实的状况。克瑞斯·安德森(Chris Anderson)在他的大作《理论的终结》(The End of Theory: The Data Deluge Makes the Scientific Method Obsolete)中也说到:以大数据之名关注特定领域,必须植根于当时的经济、政治和社会环境。


我在《起源》中曾经写到:大数据的4V模型,最后一个V,就是数据的veracity,即诚实性。要知道,大数据其实是会骗人的,这不是数据本身会骗人,而是基于采集、处理及统计方式的差异,一般会造成两种结果:
1. 数据过度集中,通常是由于采样样本区间选择或者统计方法造成,反映出的微观情况极度极端。
2. 数据过于离散,通常是由于采样样本区间过大,导致数据趋于均值,无法反映出重点或趋势。


这里我举个例子:
在上世纪60年代,美国曾经进行过一次关于肾癌的调研,结果发现,居于共和党投票区的几个乡村,其肾癌发病率远远低于全国肾癌的发病率。一时间,这个数据成为共和党攻击民族党的有效武器,大家也纷纷认同共和党在边远地区的医疗、卫生及保健工作做的很出色。
事实果真如此吗?经过统计学家的冷静思考,结果发现,在那几个乡村的肾癌发病率低的真正原因是那几个乡村的人口数量(即统计样本区间)也低的可怜。这并不能说明共和党的执政水平在当地有多么高。这个例子,就是典型的由于样本选取有问题,导致最后统计结果误差的极端。大数据本身没错,但是这个大数据并没有反应微观层面真实的情况。


在《哈佛商业观察》(Harvard Business Review)2012年的一篇评论中(Good Data Won't Guarantee Good Decisions)写道:就算有些大公司投资了8位数到9位数,想从客户及供应商数据中挖出具有重大价值的信息,这些公司中能够有成熟的方法及技术处理这些数据(以挖到有价值的信息)的员工,不超过40%。那怎么办呢?不管大数据做的多么完善,数据分析处理的多么好,由于获取到的有价值的内容非常匮乏,大数据往往伴随着“大决断”(big judgement)。这里通过所谓的大决断不难看出,在基于输入缺乏状态下,做出的企业重大决策,一旦错误,往往意味着重大损失、重大社会影响。


在马丁·希尔伯特(Martin Hilbert)2013年发表的文章《大数据发展》(Big Data for Development: From Information- to Knowledge Societies)中说道:基于大数据的统计分析不可避免的出现“世界要么和过去一样,要么就和现在一样”这种毫无价值的结论。基于海量经验数据的预测算法,往往计算出未来情况和过去毫无二致,一旦系统性的未来出现变化,历史数据就呆若木鸡了。比如,坐拥Nokia AIR的诺基亚和iCloud的苹果就从未在大数据计算中预测出安卓生态如今的火爆。
系统是动态的,牵一发而动全身,蝴蝶效应充斥整个生态。在微观层面上,采用多元分析方式,比如因素分析、聚类分析再配合上精心设计的小样本空间,往往比大数据能起到更加令人惊讶的作用。


我们为自己创造了一个适于生活的世界,接受了各种体线面,因与果,动与静,形式与内涵。若是没有这些可信之物,则无人能坚持活下去!不过,那些东西并未经过验证。生活不是论据;生存条件也许原本就有错误。
----弗雷德里希·威廉·尼采


大数据在盛极一时的情况下,招致了批评的声音。首先有人质疑立足于大数据这种思考和解决问题的方式是否真的行得通;那么接下来,就立刻有人开始质疑(并批判)基于大数据的实践方式。


首先还是德国的乌尔夫和乌韦(请参考上一篇博文),这两个活宝在2014年9月份《International Journal of Internet Science》上发表了一篇文章《Mining “Big Data” using Big Data Services》(http://www.ijis.net/ijis9_1/ijis9_1_editorial.pdf),该文章详细描述了哥俩使用基于互联网各种大数据查询工具,来搜索“big data”和“pig data”的流行度的数据,搜索结果表明,“big data”的频繁度以让人感到被侮辱性的优势险胜“pig data”这个词的热度零点零几个百分比。


然后是研究学者德纳赫·博伊德,她在《Privacy and Publicity in the Context of Big Data》文中,特别指出:在科研中大数据的使用,已经让人们花费了太多精力在海量数据处理方式上,而本该更加把注意力集中在选取具有代表性的样本上。过度使用海量数据往往意味着误差的开始。


尽管某些科研人员坚称大数据的使用代表着科技的最前沿,但是,在海量异构(不同的数据来源与数据类型)数据面前,这些数据的混在一起构成样本空间,引发的逻辑错误和统计分析风险往往都是灾难性的。大数据的使用者往往迷失在数据的洪流中,做出的判断往往仍然带有主观色彩,因为大数据的“量”并不等同于更加接近客观真相。在许多实践情况中,做着做着,大数据工程就成为了小数据统计分析。我甚至看见过有的大数据工程连基本的ETL工具都没有引入的,更别说后续的统计分析了。大数据之所以现如今这么火,完全是出于企业、咨询公司、科研及媒体的需要。要知道,号称准确率97%的谷歌趋势分析(Google Flu Trends)在2011年到2013年的预测几乎是睁眼瞎;从推特上预测出来的奥斯卡得奖名单现在看起来也更像是个笑话(你们知道为什么吗?这就是典型的样本不具备代表性,大众的口味怎么可能和评委一致呢)。向小样本空间中增加大量数据并不能直接减少统计误差,相反,还会引发出其他更为复杂的统计问题。


其中比较著名的问题就是“多重检验”(以下内容涉及到统计学,可能会引发观众的不适,16岁以下观众请家长陪同观看;16岁以上人士如果看不懂或者出现呕吐、眩晕等症状可以关闭微博,关机,砸烂显示器等解决问题)。
在任何一个严谨的科学测量中,我们判断两个数值是否有差异,必须要考虑这个差异可能来源两个方面:可能是真实的差异,也可能来自检测误差。而一般的显著检验的目的,就是计算出观测到的差异来源随机误差的概率,这样才能评判我们的结论是否可靠。上面这句话可以这么理解,一个胖子和一个瘦子,你一眼望去,胖子肯定比瘦子要沉。但是天有不测风云,你还是有1%的概率是基于你眼有毛病或者脑袋发晕,导致你计算出错了,胖子有1%的几率比瘦子轻。但因为这个1%的概率太小了,所以你就认可了胖子比瘦子重的这个宇宙真理。这个1%的出错概率,在统计学中,称为p值。


但是在科学实验中,可不能这么做。比如在基因序列对比中,10000对儿的基因序列对比(对比10000次,并且每次对比的结果互相独立),如果p值为1%,那么完全相同的两组基因序列对比,经过统计计算下来,也会出现100对儿基因是不同的结果(因为对比手段有误差,所以10000对儿中有100对儿应该是不相同的);如果两组对比基因序列中,真的有100对儿不相同,那么统计计算的结果是199对儿不相同(10000*1% 100*(1-1%),那100对儿测量不同的结果中,因为统计手段有错误,应该有1对儿是相同的)。当对比次数越来越多的时候,因为统计手段的误差,导致统计的结果会出现越来越多的不相同的基因序列。一个小概率事件也会随着检验次数的递增导致整个检验结果的错误率达到了让人不可忍受的地步。


随着数据量的剧增,不解决这个统计问题、最终导致的结果就是大数据的使用往往导致错误的统计决策。关于如何校正这个统计误差,不在本文讨论的范围之内,有需要的读者,请自行百度或者google。


夕阳

“逆风而行”是要冒风险的,有时可能遭到灭顶之灾
——翦伯赞


玩大数据,归根结底还是个极度耗费时间的劳动密集型行业。从硬件到软件,需要投入近乎无底洞似的人力和物力。因此,我认为大数据的夕阳将至(或者未来的某天将转化为其他更为经理合理的方式存在)。为了支撑我的结论,请看如下图:


上图基本说明了一个具有一定规模企业的大数据运营循环。

  1. 首先从传统数据库、数据仓库、日志、实施业务流数据等数据源采集到数据信息。
  2. 这些数据经过抽取、转换,并加载到分析中心。
  3. 业务领域专家配合工程实施人员,进行领域建模,建模完成后,要对模型的有效性和准确性进行验证,验证通过后,交给实施人员实现模型(将模型和数据融合,计算统计结果)。
  4. 输出统计分析结果之后(一般是报告、趋势预测、图形分析等可视化内容),交给管理层决策。
  5. 管理层决策之后,后续产生的行为数据又被用来对数据源的数据进行采集、归纳的改良,并驱动预处理及建模能力的再度改善,进入循环。
图上房的彩色图形例举了运营大数据所必须的几个业务能力:
  1. 具有高可靠性的物理设备,并放置在具有容灾能力的数据中心或者云。
  2. 资深存储行业专家及高水平的DBA。
  3. 具备高速及大型数据运算能力的计算中心及计算机。
  4. 高度安全的密保措施。
  5. 精英级别的行业翘楚及实施人员。
这几个业务能力中,最难达到的是4和5。


首先,安全策略是极其苛刻的,任何企业或者组织,都不想自己的大数据信息出现任何形式的泄露,要知道在2014年iCloud照片泄露事件造成的后果是灾难性的(当然了,从另外一个角度说,这是很多宅男的福利)。所以一般企业采用的是传统数据中心或者私有云的方式。但是一般企业的能力毕竟有限,所以这种方式的存储能力往往支撑不了几年,大家都会考虑使用公有云。但是企业用户和个人用户又不太一样,又不想把自己的数据安全寄托在别人的身上,尤其是可能寄托在未来出现在竞争领域的对手身上。所以,大部分企业采用了敏感信息及核心分析模型放到自己的存储中心(私有云),非敏感信息放到公有云的混合云模式。混合云模式虽然保证了存储,但是大数据运算的一个重要要求就是输入和输出速度,那么基于混合云的模式,带宽和传输速度又成为了瓶颈。


其次,是精英级别的领域建模人才及实施人才。大数据对于不同行业的业务领域分析是差异巨大的,针对不同行业的行为特征分析基于不同的业务模型。所以,要求领域建模的人才往往具备高深的数学、统计学、业务领域知识、市场及消费者行为方面的专业知识。因为一旦模型建立错误,导致的决策往往也是灾难性的。这样的跨领域、多学科人才及其珍稀。所以,大部分的企业采用的是团队作战,依靠集体的智慧互相弥补。但即便如此,花在沟通协调上的成本(管理成本)也非常高昂。另外,即便领域模型建模成功,那么模型有效性的验证也需要一个时间周期进行迭代和试错,往往要付出高昂的沉没成本,才能使模型精确化,但这个时候,市场可能已经变化了。最后即便模型有效,还要依靠实施团队写出算法及运营,这其中,写不写得出来是一个原因,写出来是否能反映真实的统计分析结果也是个问题。


(这里特别说明一下,一说到算法,很多读者自然而然的联想到了MapReduce,实际上,MapReduce只是一个并行计算的编程模型,Hadoop是一个非常突出和优秀的实现。这里的算法,特指业务领域内的分析算法和并行计算无关。另外,MapReduce本身的批处理机制也因为小查询处理不力而开始逐渐出现颓势,最近新兴的基于内存的并行计算模型spark方兴未艾,而且spark可以运行在hadoop框架之内,有兴趣的读者可以自行百度或者google)


基于以上两个原因,所以一般大数据分析往往用于影响国计民生的事情,基本上是由政府在运营(前文说过NASA等)。一般只有规模达到一定程度的超大型企业,才能真正玩的起,比如Google、Intel,国内比较著名的就是BAT、京东、360(严格来说,京东及360也只是局限在相对较小的一个业务领域内)。


如此高的门槛,疯狂的资本投入,我实在看不到大数据能形成健康的生态,长久的生存下去,必将日薄西山暮。


新希望

知识、百科全书可以替代,可是考虑出的新思想新方案,却是任何东西也代替不了的。
----川上正光(日本长冈技术科技大学校长,《科学与创造》一书的作者)


2011年在美国亚利桑那州图森召开的经济协作与增长论坛上,维微克·拉纳戴夫(TIBCO的创始人兼CEO)曾经说过如下类似的话:我相信数学已经在科学领域碾压了其他一切学科,从此以后人们不需要知道为什么,只需要知道有了A,有了B,自然会有结果C。


如果科学的方法仅仅是观察、假设、测试和分析,那么大数据(及其实现方案)的出现让这一成本极高的过程变得平易近人。比如使用google提供的在线A/B测试工具,就是个普通的,不懂得太多统计学知识的人,都能针对自己的业务领域得到商业决策上的帮助。也难怪拉纳戴夫在该论坛上大放厥词,竟然呼吁使用计算机预测技术来取代联邦开放市场委员会(该委员会参与美国的货币政策制定),他说道:事实就是你一直能看到实时信息,能做出迅速决策,能构建一个闭合系统,在这样一个系统里,你时时刻刻在调整和改变,你不会犯任何错误,因为你一直在接受系统信号并能得到反馈。


这一观点立刻遭到贾斯丁·福克斯(《Harvard Business Review》的编辑)的批评,福克斯在《Why Data Will Never Replace Thinking》一文中写道:拉纳戴夫让程序取代联邦开放市场委员会的计划让人不忍直视,首先你得假设你能将美国的货币政策放到一个封闭的系统中去,其次是你得能说清楚过去经济和财政政策之间的关联,以便预测未来,最后,如果你搞不定第二个步骤,那么你需要做到当有新的信息输入时,要迅速根据情况调整。


福克斯认为撇开上述三个条件空谈什么数据取代人的这种行为,和在2007-2008年给世界带来全球经济危机的那帮坐在办公室里的、评级机构及金融机构的精英罪犯的行为,没什么区别。本质上,这些行为都是假设和预测,需要花费大量的时间和成本去证明。


在原始科学(proto science)领域,17世纪,弗朗西斯·培根引发了关于如何获得科学真相的大讨论。当时他有两个方案,第一个是根据基本原则进行逻辑推断,第二个是根据大量事实观察总结归纳。在20世纪30年代,卡尔·普波尔(Karl Popper)创造性的将这两种观点合二为一,他认为经过科学的方法规范(推断、归纳或者二者兼而有之)后的假设,必须能够被证伪。即如果预测不能够被证明,那么假设就是根本错误的。(太绕了,哲学家果然不是一般人能理解的)


现代科学实践比上面的情况可复杂多了,但关于假设/预测这两方面的基本要素是通用的。人们总是倾向于在事实发生之后,编造故事来挽救/解释世界(想想你上一次分手,或者想想你上一次背着女朋友出去high)。必须把我们的这些臆想拿到事实发生之前,进行检验,我们才能从经验(数据)中得到知识和教训。但在大数据时代,不管我们承认与否,那些假设就在那儿,不多不少。


政治预测家纳特·西尔维(Nate Silver)在《The Signal and the Noise: Why So Many Predictions Fail — But Some Don’t》一书中写道:不是数字为自己代言,是我们人类为数字代言。数据驱动型的预测能成功还是失败,取决于我们在这个活动中的角色。当我们想向数据索取更多的时候,我们往往要问自己的内心,自己到底想要什么。


这个角色关键的一环就是我们到底选取什么样的数据。萨莫埃尔·阿贝斯曼(Samuel Arbesman)在Boston Globe(波士顿环球报)中写道:人们最爱选取容易度量的数据,而往往对间接非连续性数据视而不见。纵观历史,科技在可度量领域取得巨大进步,但是在不可度量领域却止步不前。


这里举一个例子,尤原庆,负责腾讯开放平台,云平台设计工作。曾经在雅虎移动搜索做的“直接搜索”,流程是,用户在手机上搜索“Weather”,手机自行判断本机位置,然后展示当地的天气。下面例子是在旧金山搜索“Weather”得到的页面的顶部,这个区块往下就是正常的10个blue links。


当时雅虎移动搜索类似这样的“直接搜索”有30多个,包括本地商务,天气,星座,明星,音乐,购物等等。
有一天,产品经理拿着这30多个“直接搜索”的数据来找他,说:
“yoyo,你看,天气的直接搜索,点击率是最低的,只有不到1%,我们是不是应该删除这个直接搜索,这个直接搜索没用。”
他第一时间心理反应是:“什么?这个直接搜索应该是非常有用的,业界研究表明用户对天气搜索的需求是手机搜索的前几类,也符合我自己对这个产品设计的认知,数据怎么这么低?”
“不能完全依赖这个数据来决定”,尤原庆告诉自己,然后想了一下,了解了为什么数据会偏低,然后告诉产品经理:
“数据低就对了!我们做“直接搜索”的价值,就是希望提供给用户10个blue links之外,给用户提供直接展示的答案,减少用户点击links到下一页的场景。这个天气搜索的场景,用户搜索天气,看到了答案,52度,他们不需要再往下走了,一部分用户希望了解后七天的天气,才会点击进入看完整天气预报,但是大部分用户看到答案就会满足,完成任务,数据低反而证明了我们产品设计是成功的。”
最后达成的共识是,如果每个产品设计决策都是纯粹依照数据而不思考,得有太多错误的决策发生。


2012年9月,kdnuggets.com做了一个民意测验,使用投票的方式来让大家表决出哪个词将会超过“大数据”成为新的流行词汇(hot buzz word),投票结果如下:


结果smart data以微弱优势取胜(第二位是big analytics)。这里虽然没有对smart data进行明确定义,但是人们对大数据的期望,从big已经开始转移到了using in a smart way这种方式上来。


那么什么是smart data,包含哪些方面的内容。这些问题,由于相关权威资料很少,我采用了Cambridge Semantics Inc的定义(有兴趣的读者可以自行访问http://www.cambridgesemantics.com/来获得更多资料)


smart data通过以下方式来改变数据的收集、集成、搜索、可视化及分析过程:
智能模型能够按照需求提供数据
数据在领域内部以和行业专家思考问题方式相同的术语和关系进行表示
不同数据源采集的数据可以映射到同一个智能模型而不丢失语义
更强的复用性
因为是新概念,行业内部并没有相关smart data的行业或者组织标准,Cambridge Semantics Inc出于商业角度考虑,提供了自己的标准和实现方式——语义技术


因为是商业产品,其行业前景未知,在未充分使用及测试、还涉及到商业敏感信息的情况下,我不能武断的给出任何结论。但是在


http://www.cambridgesemantics.com/semantic-university/introduction-to-the-semantic-web


上有一个视频专门介绍相关的启蒙技术,另外,在


http://www.cambridgesemantics.com/semantic-university


上,对整个语义技术做了一个非常详细的教程,有兴趣从事于智能数据研究的同学,可以自学。Cambridge Semantics Inc公司的相关技术,为替代大数据,做了一个还算不错的开端,走到了整个行业的前面。(如果将来有幸smart data发展壮大,我还是愿意多花些笔墨在这个技术上面的)


最后,在这个系列的结尾,总结下,也许大数据将死本身就是个噱头(未经检验的假设),大数据也会以各种各样的方式,传承和演变下去。不变的,只是客户需求的探索,趋势的预测和分析。万变不离其宗。

0 0