伟哥大数据入门教程一

来源:互联网 发布:淘宝买女装要什么资质 编辑:程序博客网 时间:2024/04/30 21:05

我们都知道大数据技术是未来10~20年的企业核心竞争力。

前言

伟哥跟大家所有coder一样,技术栈主要有C++、java和php,从事过地铁AFC系统,系统服务,设备驱动,cos,商城系统后台等开发,但是未来10年,靠语言和开发经验优势来提升的空间会越来越低,所以现在就要果断的像大数据技术看齐。

那么我在这个转型的过程中,遇到了N多的坑,最苦恼的是没有一个系统的,step-by-step的
大数据教程带着你入门,带着你提升。国内的教程,作者写的都不够细致负责,而且由于jvm,hadoop等系列软件版本不停的升级,教程上的很多版本都下载不到,导致一开始铁定了心顺这一篇教程坐下来的心一次一次受到蹂躏。
后来我不堪其苦,一口气报了2个大数据视频课堂,再一次让我体验了理想和现实的差距!
**我买的两个视频教程,宣传的都非常好,价格分别都10K左右(某geekband 和 某易云课堂,吐血鄙视!),但是发现他们都是直接拷贝的国外的教程,或者东拼西凑,比文章教程还坑!

这里写图片描述

我走过了这些坑之后,为了帮想系统学习大数据的coder们绕过这些坑,我开始写这一系列大数据入门课程文章,目的就是让你通过本教程,真正迈入大数据课堂。
不要谢哥,因为哥是雷锋的弟弟,雷管

什么是大数据 big data?

今天,你如果不懂大数据,不知道大数据,

不会用大数据,别人会觉的你很low,自己也内心自卑内分泌失调!

在正式讲大数据之前,伟哥不得不提两个概念:分布式与并行计算
这里写图片描述
让我们考虑一个场景:
一个大学里面,每年都有很多学生参加各种不同学科的入学考试,但是把所有学生集中到一个校区是不现实的!因此,我们会把学生分成若干小组,把他们分到各个附属的学院,根据预先定好的配额,学校使用入学考试成绩作为标准,把学生分配到不同的学院。大家注意到了没有: 将大量的数据分成若干小组,再把各组数据分配到互相连接计算机系统中,完成任务,这就是分布式和并行计算的原理,伟哥讲明白了,你听明白了吗!?

讲多个任务分解成N个小任务,这样不仅可以短时间内计算大量数据,而且解决了延时的问题。因为一个大任务包含的数据实在太多了。

hadoop

hadoop就是为此而生,它的本质就是一个分布式存储框架。一个在分布式计算环境下,用来计算大量结构化和非结构化数据的开源软件平台。
我们继续拿学院和学生来举例,大学的各个附属学院,分别使用各自的资源帮助学生获取知识,但不论你是哪个学院的,最终的文凭由大学统一颁发。类似的,hadoop有一个叫MapReduce的机制。

它的计算原理是:hadoop将大量数据分解成较小的可控的数据块,然后分发到各个计算机中,并发送一个作业代码,来追踪数据的位置,一旦各个计算机完成了分布式计算任务,数据会被收集起来组成一个综合的数据结果集。

为什么hadoop最流行

在所有技术中当中,为什么hadoop最流行

考考你!?

指导大家最讨厌考试,但是伟哥还是要考考你?

什么是分布式计算?

分布式计算就是一组相互独立的计算机系统,通过网络链接起来,共同完成一个具体的任务。

恭喜你,大数据第一课完成,已经没人敢鄙视你了~!

0 0