了解大数据

来源:互联网 发布:婚礼邀请函制作软件 编辑:程序博客网 时间:2024/05/22 18:24

前言

得益于云计算的发展,我们正处在信息大爆炸的时代,不仅个人产生的数据正在快速增长,计算机产生的数据更是如此,像机器日志,RFID检测仪,传感器网络,车载GPS和零售交易等所有这些都将产生巨量的数据。

为什么学习大数据

我们已经有了大量的数据。但这并没有什么用,就好像一堆破烂中的一粒金子。每个企业要想在这个时代取得竞争优势,就必须从这些数据中获取有价值的信息。因此我们还必须想办法去存锯并分析这些数据。


从以下成功案例中不难看出大数据的神奇魅力

  • 2014年谷歌的云计算平合成功预测了世界杯16强比赛每场比赛的胜利者。谷歌使用了来自 Opta sports(一家体育数据提供商)的数据,评估了每个职业足球联盟过去多个赛季的情况。以及世界杯小组赛期间的统计数据.根据对球员比赛前、比赛中表现的分析,谷歌预测了这些球员在随后比赛中将会有什么样的表现。
  • 沃尔玛(零售连锁超市)—啤酒与尿不湿。沃尔玛超市管理人员分析销售数据时发现了一个难于理解的现象 : 啤酒和尿不湿经常出现在同一个购物篮中。于是将啤酒和尿不湿两个看上去没有关系的商品摆放在一起进行销售,并获得了很好的销售收益。
  • 2014年推出的百度高考预测押中了全国18套作文考题中的12套。
  • 大数据已经在很多领域中得到广泛的应用,如推荐引擎、情感分析、风险建模、欺诈检测、营销活动分析、客户流失分析、社交图谱分析、用户体验分析、网络监控、产品设计等。作为技术人员,大数据为我们带来了广阔的职业发展空间,能够将我们现有的项目进行扩展、升级。目前大
    数据比较热门的就业方向有以下几种
  • 大数据系统研发工程师:负开发大数据分析处理系统,如接下来要学习的Hadoop。
  • 大数据应用开发工程师:负责在大数据分析处理系统上开发大数据处理的应用
  • 大数据可视化工程师 :负责将数据以图像等可视化的形式展示给用户
  • 大数据分析师:负责发现数据的价值,设计数据分析的算法。

什么是大数据

大数据是指无法在一定时间内用常规件工具对其内容进行抓取,管理和处理的数据集合。简而言之就是数据量非常大。大到无法用常规工具处理,如关系型数据库,数据仓库等
,这里的“大‘’是一个什么量级呢?如阿里巴巴每天所处理的交易数据达到20PB(即20971520GB)。传统数据处理技术为何不能胜任?主要原因是关系型数据库是针对表、字段、行这种可使用二维表格表示的结构化数据而设计的,而大数据通常是针对文本这种非结构化数据而设计的。


数据量大是大数据的显著特点,归纳来说大数据特点如下:

  • 体量巨大。按目前的发展趋势看,大数据的体量已经达到PB级甚至EB级。

  • 大数据的数据类型多样,以非结构化数据为主,如网络日志、音频,视频。图片,地理位置信息、交易数据.社交数据等。

  • 价值密度低。有价值的数据仅占到数据总量相当小的一部分。比如一段监控视频中真正有价值的画面可能只有几秒钟。由于价值密度低,所以迅速地完成数据的价值提纯是目前大数据酒涌背景下亟待解决的难题。

  • 产生和要求处理速度快。这是大数据区分于传统数据挖掘最显著的特征。


另外,大数据也是一种方法论。原则是一切都被记录,一切都被数字化,从数字里寻找需求,寻找知识。发掘价值”这是一种新的思维方式,不同于此前的专家方式,而是通过数据分析来得到结论,这是大数据时代的一个显著特征。这也就要求技术人员拥有能够从各种类型的数据中快速获
得有价值信息的能力。前有很多大数据处理系统可以处理大数据,如表1-1所示。

名称 类型 说明 Hadoop 开源 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。 Spark 开源 类型Hadoop MapReduce的并行框架 Storm 开源 实时的,分布式以及具备高容错的计算系统 MongDB 开源 面向文档的NoSql数据库 IBM PureData 商用 基于Hadoop,属于IBM专家集成系统PureSystem家族中的组成部分,主要面向大数据应用 Oracle Exadata 商用 Oracle的新一代数据库云服务器

Hadoop,Hadoop是开源软件,实现了一个分布式文件系统(Hadoop Distributed File System,
HDFS),分布式系统是运行在多个主机上的软件系统。HDFS有着高容错性的特点,能够自动保存数据的多个副本,并能自动将失败的任务重新分配。Hadoop设计用来部署在低廉的通用硬件平台上组成集群,提供热插拔的方式加入新的节点来向集群中扩展,将计算任务动态分配到集群中各个节点并保证各节点的动态平衡。总的来说,Hadoop具有低成本,高扩展,高效性,高容错性的特点。因此Hadoop得到多家厂商支持或采用,包括阿里巴巴,腾讯,百度,Microsoft,Intel,IBM,雅虎等。


原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 电视频幕花了怎么办 苹果笔记本电脑硬盘坏了怎么办 mac屏幕压坏了怎么办 新电脑连不上网怎么办 新买电脑后悔了怎么办 装显卡后玩游戏黑屏怎么办 顺丰寄主机坏了怎么办 征信账户忘记了怎么办 疑似qq和疑似应用宝怎么办 荣大3608速印机卸版故障怎么办 配的近视眼镜看不清电脑屏幕怎么办 cad命令反应很慢怎么办 淘宝美工面试让作图怎么办 笔记本玩cf闪退怎么办 台式电脑玩lol卡怎么办 配置充足玩lol卡怎么办 电脑买贵了应该怎么办 微信红包收不了钱怎么办 mac版excel卡死怎么办 锐捷网卡为空怎么办 淘宝上买东西卖家不发货怎么办 快递员没给单号怎么办 淘宝物流把货弄丢了怎么办 刚买的卡没激活怎么办 腾讯王卡40g用完怎么办 手机欠费不知道电话号码怎么办 手机欠费了不用了怎么办 闲鱼恶意差评怎么办 淘宝买家账户体检中心违规怎么办 淘宝卖家账户体检中心违规怎么办 淘宝好评被删除评价怎么办 淘宝没收到货确认收货了怎么办 美团评论被删怎么办 拼多多恶意差评怎么办 淘宝评论被删了怎么办 淘宝买东西错怪店家了怎么办 淘宝骗删除差评怎么办 淘宝买家号虚假交易违规怎么办 淘宝商家一直不发货怎么办 淘宝商家不发货也不退款怎么办 淘宝买家恶意差评怎么办