Big Data 学习笔记【1】
来源:互联网 发布:淘宝上买警官证 编辑:程序博客网 时间:2024/05/16 09:24
俗话说得好:温故而知新。
开课两周了,趁讲的东西还不多,先随手记一下这两天学的东西。
先开始,约瑟夫讲了一堆数据存储设备的演变,从刚开始的1990s的只有1.4M的floppy drive,到softdrive(存储空间和floppy一样),再到100M的zip drive,到jazz drive(2GB),到ditto drive(2GB),到现在的U盘,移动硬盘。
所以多大的数据可以称之为大数据?约瑟夫说,250个最大容量的HDD可以被称之为big data。250x4TB=1000TB=1PB。我NEU这辈子都用不上大数据系统,原因很简单,没那么多人。
那现在数据爆棚的原因是什么,是因为web从1.0变成了2.0。web1.0意味着用户只能被迫看到网站上的东西而不能参与互动,也就是说网页都是静态的,网管让你看啥你就得看啥。而web2.0则不同,他是web1.0的进化体,用户可以从眼睛被qj的体验变成了可以参与互动。比如Amazon,淘宝这类网站,用户有自己的数据在网页上。所以这就是当今数据爆棚的原因。
下面是一些开始关于big data system技术的东西,当然是皮毛,没什么深奥的,入门嘛。
首先,big data system不能用于eventually persistent system,也就是money-related和time-related system。从这一点可以看出,关系型的数据库还是不会被代替的,因为它有这种即时性。大数据系统给人的感觉是把数据收起来然后自己一点点分析,像这种即时到账的事它做不来。
哦对,约瑟夫这个时候还讲了个coexist。没get到他的点。可能是说这两种系统必须相互依存吧。
big data system的最显著的特点:nosql。这学期估计要跟Hadoop和MongoDB接触的比较多。它们用的两种技术是:Distribution和Parallel Processing。
//Hadoop是什么? MongoDB怎么用?
第一周的作业是读Google的4篇文章:GFS,MapReduce,BigTable和Chubby。通过这四篇文章大概了解了一下这种分布式系统的运作原理,当然,只是了解而已。Google不可能把技术写的那么详细,就算写了我也看不懂= =。
技术层面上的东西,这周开始入手MongoDB,之前我也用过,不过只是一些helloworld级别的入门操作,要玩转还要学一段时间。
先写到这里,去玩MongoDB了。
- Big Data 学习笔记【1】
- Coursera Big Data系列课程笔记1
- 《Big Data Glossary》笔记
- 【Big Data】笔记
- Big Data (1)
- Data Mining with Big Data--阅读笔记
- Big Data--1, 初识hadoop
- Big Data课程总结 ( 1 )
- Web Intelligence and Big Data 笔记
- Coursera Big Data系列课程笔记2
- [Big Data]菜鸟的Hadoop (Before YARN) 学习笔记 (一) WordCount
- BIG DATA
- Big Data
- Big Data
- Big Data
- Big Data
- Big data
- BIG DATA
- 多点触控及一个华丽的Demo
- Linux上安装DB2
- *LeetCode-Perfect Squares
- JDBC和JTA事务区别
- vc2010下mongodb驱动的编译与环境搭建
- Big Data 学习笔记【1】
- EJB面试题
- Ember.js 入门指南——工具类的助手
- autocomplete 自动填充 类似百度查找
- 普及X64 ssdtshadow inline HOOK
- EventBus实现activity跟fragment交互数据
- 杨辉三角打印
- Evaluate Reverse Polish Notation
- 汉诺塔