如何应对海量数据的挑战
来源:互联网 发布:c语言如何编程 编辑:程序博客网 时间:2024/04/30 17:26
提到自身企业的数据量级别,各公司一致表示绝对可以配的上“海量”一词,而且增速还在继续扩大。至于五年后会达到什么程度,实在难以估计。为了存储海量数据,一是可以采用NoSQL数据库,比如MongoDB、Redis等;二是可以采用分布式数据处理;三是一些特别的技术,比如SAP的内存技术HANA。
对于企业来说,数据并不都有价值。但是如何从海量数据中获得有用的信息,为用户提供好的用户体验,对企业来说是一个挑战。通过数据挖掘,能够从数据中提取出合适的数据,推送给合适的人。
各巨头的数据量级大曝光
百度威廉.张表示,“数百PB,每一天需要处理的数据是数十个TB,许多数据要在几秒钟之内处理,很多数据在几分钟之内要处理,更多的是几个小时之内处理就够了,几个小时处理数十个PB的数据,也是很困难的。所有的策略都是针对实时性和数据处理的时效性理来做的。互联网用户的需求是更加实时,如微博、团购、秒杀等,所以说实时处理十分重要。”
Yahoo!周轶平谈道,“雅虎的云计算平台综述超过三万台机器,最大的超过4000太左右,总存储容量超过了100PB。”他表示,雅虎最近放了很多精力在保护用户的隐私和数据安全性上,欧盟规定雅虎不能够存储用户的数据超过一百天,虽然不能保存,但是雅虎做很深入的数据挖掘,从数据瓦局得到一些真正有价值的信息,并把这些信息保存下来。”
SAP杜韬也介绍了其需要帮助客户处理的数据量的级别,“SAP作为企业级应用的提供商,更关注客户的数据量是多少,这些客户包括中小型企业到大型的客户,其中有数据密集型的企业,如电信、金融、政府、零售等等,客户的数量级包括从几个TB到数百个TB。”同时,SAP自己有一个很大的数据中心,主要是为SAP的客户提供服务,有三万台服务器,数据量大概是15TB并且有越来越多的客户的数据会在SAP的数据中心。
如此海量的数据,如何进行存储、分析、处理?并基于海量数据的挖掘,为企业创造更大的商业价值?针对海量数据的挖掘的技术架构,几位专家分别介绍了自己的法宝。
SAP杜韬从两个方面介绍SAP的海量数据处理方法,“一方面,在SAP的数据中心,采用了标准的云计算所用的虚拟化和分布式存储;另一方面,针对单独的企业,SAP在4月16号在德国发生了内存计算技术。海量数据的读取和分析,在传统的架构下,基于磁盘的IO是以毫秒级来计算的,而在内存RAM中处理时间是nm级的。所以SAP把客户的数据经过压缩的处理放到内存中去,进行读取和分析,把之前在应用层的分析放到内存里面去做,提升性能,帮助用户充分利用他们的数据。”
Yahoo!的云计算的体系是以Hadoop为中心的,周轶平介绍到,并从数据采集(HDFS)、数据存储和处理、数据服务三个层面入手,介绍了雅虎的海量数据处理的方案。数据采集方面,yahoo建立了Data Have负责从雅虎遍布全球数据中心中的几十万台机器上实时收集数据,它有2个干道,主干道负责把数据以很高的一致性经过各种过滤清理以后,放到Hadoop的平台上。但是这样的处理方法实时性不是很高,为了满足实时性的需求,还有一个旁道系统,能够在秒级直接将数据源导入到Hadoop上。雅虎的数据处理都是基于Hadoop的实时的服务,同时Yahoop还有一套很大的不同业务逻辑所需求的服务系统,超过一半的数据处理都是使用Hadoop Pig数据引擎。
百度威廉.张表示,面对互联网的云计算,大搜索是基于索引的,如何对数据进行实时地快速的更新,就需要进行一些优化。比如说根据数据更新的频率,建立在更新系统快或是更新系统慢的系统之上,根据地域的登录跟重要性的登录把它放到南方或者是北方的机房里,也就是说,主要是根据数据的应用来策略。机器学习的算法,内存里面的数据进行高复杂度的计算,可能要花费很长的时间,这在百度的环境中是不行的,无论是判断用户的需求、从用户行为中得知需要推荐什么内容和什么广告,这些都需要非常高的时效性和极规模的机器学习。
- 如何应对海量数据的挑战
- 如何应对海量数据时代的挑战
- 中国如何应对大数据时代的挑战
- 如何应对移动测试的五大挑战?
- 应对SOX法案的挑战
- 应对SOX法案的挑战
- 内存计算技术应对大数据挑战
- 传统企业如何应对互联网挑战
- 中国如何应对人口老龄化挑战
- SaaS 公司如何应对 On-Call 挑战?
- 传统 IOE 架构已无力应对大数据的挑战,云计算变革时代已经到来
- 如何应对内网安全的那些新挑战——威胁不断,防御不止
- 如何应对研发团队从30人到1000的挑战
- SOA---应对今天的业务挑战
- 怎样应对医疗电子设备的设计挑战?
- 搜索引擎面临的挑战及应对措施
- 如何应对美国春晚“超级碗”带来的海量访问请求?
- eBay是如何管理海量数据的
- 解决通过NFS挂载文件系统时DHCP无法获得IP地址的问题
- buildroot制作交叉编译工具链
- OpenCV学习笔记-卷积
- service和broadcastreceiver都是运行在ui线程中
- CSDN winform正式版
- 如何应对海量数据的挑战
- Usaco 1.1.3 黑色星期五(Friday the Thirteenth)
- hdu1466
- Permission Denial: starting Intent 解决办法
- 代码审查相关资料
- HDFS的使用及编程
- Lucene中Token类的positionIncrement字段
- Android界面布局-----RelativeLayout(相对布局)
- HDU 1257 最少拦截系统