Big Data 学习笔记【1】

来源:互联网 发布:淘宝上买警官证 编辑:程序博客网 时间:2024/05/16 09:24

俗话说得好:温故而知新。

开课两周了,趁讲的东西还不多,先随手记一下这两天学的东西。

先开始,约瑟夫讲了一堆数据存储设备的演变,从刚开始的1990s的只有1.4M的floppy drive,到softdrive(存储空间和floppy一样),再到100M的zip drive,到jazz drive(2GB),到ditto drive(2GB),到现在的U盘,移动硬盘。

所以多大的数据可以称之为大数据?约瑟夫说,250个最大容量的HDD可以被称之为big data。250x4TB=1000TB=1PB。我NEU这辈子都用不上大数据系统,原因很简单,没那么多人。

那现在数据爆棚的原因是什么,是因为web从1.0变成了2.0。web1.0意味着用户只能被迫看到网站上的东西而不能参与互动,也就是说网页都是静态的,网管让你看啥你就得看啥。而web2.0则不同,他是web1.0的进化体,用户可以从眼睛被qj的体验变成了可以参与互动。比如Amazon,淘宝这类网站,用户有自己的数据在网页上。所以这就是当今数据爆棚的原因。

下面是一些开始关于big data system技术的东西,当然是皮毛,没什么深奥的,入门嘛。

首先,big data system不能用于eventually persistent system,也就是money-related和time-related system。从这一点可以看出,关系型的数据库还是不会被代替的,因为它有这种即时性。大数据系统给人的感觉是把数据收起来然后自己一点点分析,像这种即时到账的事它做不来。

哦对,约瑟夫这个时候还讲了个coexist。没get到他的点。可能是说这两种系统必须相互依存吧。

big data system的最显著的特点:nosql。这学期估计要跟Hadoop和MongoDB接触的比较多。它们用的两种技术是:Distribution和Parallel Processing。

//Hadoop是什么?  MongoDB怎么用?

第一周的作业是读Google的4篇文章:GFS,MapReduce,BigTable和Chubby。通过这四篇文章大概了解了一下这种分布式系统的运作原理,当然,只是了解而已。Google不可能把技术写的那么详细,就算写了我也看不懂= =。

技术层面上的东西,这周开始入手MongoDB,之前我也用过,不过只是一些helloworld级别的入门操作,要玩转还要学一段时间。

先写到这里,去玩MongoDB了。

0 0