伟哥大数据入门教程一
来源:互联网 发布:淘宝买女装要什么资质 编辑:程序博客网 时间:2024/04/30 21:05
我们都知道大数据技术是未来10~20年的企业核心竞争力。
前言
伟哥跟大家所有coder一样,技术栈主要有C++、java和php,从事过地铁AFC系统,系统服务,设备驱动,cos,商城系统后台等开发,但是未来10年,靠语言和开发经验优势来提升的空间会越来越低,所以现在就要果断的像大数据技术看齐。
那么我在这个转型的过程中,遇到了N多的坑,最苦恼的是没有一个系统的,step-by-step的
大数据教程带着你入门,带着你提升。国内的教程,作者写的都不够细致负责,而且由于jvm,hadoop等系列软件版本不停的升级,教程上的很多版本都下载不到,导致一开始铁定了心顺这一篇教程坐下来的心一次一次受到蹂躏。
后来我不堪其苦,一口气报了2个大数据视频课堂,再一次让我体验了理想和现实的差距!
**我买的两个视频教程,宣传的都非常好,价格分别都10K左右(某geekband 和 某易云课堂,吐血鄙视!),但是发现他们都是直接拷贝的国外的教程,或者东拼西凑,比文章教程还坑!
我走过了这些坑之后,为了帮想系统学习大数据的coder们绕过这些坑,我开始写这一系列大数据入门课程文章,目的就是让你通过本教程,真正迈入大数据课堂。
不要谢哥,因为哥是雷锋的弟弟,雷管
什么是大数据 big data?
今天,你如果不懂大数据,不知道大数据,
不会用大数据,别人会觉的你很low,自己也内心自卑内分泌失调!
在正式讲大数据之前,伟哥不得不提两个概念:分布式与并行计算
让我们考虑一个场景:
一个大学里面,每年都有很多学生参加各种不同学科的入学考试,但是把所有学生集中到一个校区是不现实的!因此,我们会把学生分成若干小组,把他们分到各个附属的学院,根据预先定好的配额,学校使用入学考试成绩作为标准,把学生分配到不同的学院。大家注意到了没有: 将大量的数据分成若干小组,再把各组数据分配到互相连接计算机系统中,完成任务,这就是分布式和并行计算的原理,伟哥讲明白了,你听明白了吗!?
讲多个任务分解成N个小任务,这样不仅可以短时间内计算大量数据,而且解决了延时的问题。因为一个大任务包含的数据实在太多了。
hadoop
hadoop就是为此而生,它的本质就是一个分布式存储框架。一个在分布式计算环境下,用来计算大量结构化和非结构化数据的开源软件平台。
我们继续拿学院和学生来举例,大学的各个附属学院,分别使用各自的资源帮助学生获取知识,但不论你是哪个学院的,最终的文凭由大学统一颁发。类似的,hadoop有一个叫MapReduce的机制。
它的计算原理是:hadoop将大量数据分解成较小的可控的数据块,然后分发到各个计算机中,并发送一个作业代码,来追踪数据的位置,一旦各个计算机完成了分布式计算任务,数据会被收集起来组成一个综合的数据结果集。
为什么hadoop最流行
在所有技术中当中,为什么hadoop最流行
考考你!?
指导大家最讨厌考试,但是伟哥还是要考考你?
什么是分布式计算?
分布式计算就是一组相互独立的计算机系统,通过网络链接起来,共同完成一个具体的任务。
恭喜你,大数据第一课完成,已经没人敢鄙视你了~!
- 伟哥大数据入门教程一
- 伟哥大数据3:MapReduce
- 伟哥大数据课程2:理解hadoop生态系统
- 大数据_Kafka_Kafka入门教程
- 大数据的一些入门教程
- 3个西瓜等于一粒伟哥?
- 十大可以代替伟哥的男性食物
- 半杯孕妇尿等于一粒伟哥药?
- 大数据笔记(一)
- 大数据学习一
- 大数据-一
- 大数据学习、一
- 至磊哥伟哥...
- 大数据(一)--Hadoop
- 大数据系列一--引文
- 大数据算法点滴一
- 大数据时代 摘录一
- 大数据学习笔记<一>
- git中status指令总是提示内容被修改的解决
- 2016年团体程序设计天梯赛-初赛 - 奇偶分家 - Java
- Activity的四种启动模式
- 29款 业务规则引擎开源软件
- 智慧城市顶层设计范例:以数字家庭区块为例-P01
- 伟哥大数据入门教程一
- PCA(Principal Component Analysis)主成分分析
- 2016年团体程序设计天梯赛-初赛 - 后天 - Java
- c++学习笔记(小技巧)
- C#动态绘制心率折线图(串口通信)
- mysql windows service config though mysql info for next new OS or new PC
- UVA_10361
- iOS面试问题汇总
- 【搜索那些事】细谈lucene(一)初识全文资源检索框架lucene