《谁说菜鸟不会数据分析》第一章学习记录

来源:互联网 发布:天下3魍魉捏脸数据 编辑:程序博客网 时间:2024/05/02 02:58

最近本身在研究数据整合,无意中得知要搞大数据方面,经过几个小时在知乎、豆瓣上寻找这方面的书籍,决定作为一个新手入门两本是《谁说菜鸟不会数据分析》、《深入浅出数据分析》。刚才看完《谁说菜鸟不会数据分析》第一章,做个笔记吧。

一开始在纠结数据分析和数据挖掘到底是什么关系,数据挖掘和分析方法之间又有什么关系,可能没关系吧,自己脑子浆糊了。就从简单的书籍慢慢理解。总结:


1.什么是数据分析?

数据分析就是从海量数据中分析并挖掘出数据背后隐藏的含义,总结出数据模型和知识。

2.为什么会出现数据分析?

从我一个新手的角度看,数据分析普遍存在,以前、现在、以后只要这个世界有数据产生就会存在数据分析。那么火了五六年的大数据跟我们这个数据分析有什么关系呢?数据分析是一个很广泛的概念,小到数学中求平均数,大到企业中的财务报表;随着互联网时代的到来(普及运用),缓存数据越来越多,导致一台主机无法满足存储的需求,计算机处理数据的能力也就受到了限制,大数据概念随着而来,后来出现分布式文件存储,紧接着云存储、云计算也就被提出来了,数据挖掘的概念也就慢慢火起来了。可以看出,数据挖掘是随着大数据概念的提出而进入眼球的,所以后面所谓的数据挖掘都是基于大数据背景下进行的数据分析,即数据挖掘是数据分析的一个分支。

3.数据分析的主要步骤有哪些?

按照书上写的,数据分析主要有6个步骤:

1) 数据分析的目的

2) 数据的思路

3) 数据的收集和数据处理

4) 数据分析(注意数据分析的方法)

5)数据展现(可视化)

6)数据总结分析报告

按照一般的惯例,对于我一个新手来理解,我们最先进行的步骤是收集数据,而对于分析的目的和分析方法往往是最难把握的。

因为离不开数据挖掘,所以原谅我一个新手拿数据挖掘举例,数据挖掘就是要提高数据的利用价值,挖掘背后的含义。那么我们挖掘的意义就是要找到数据背后的价值,也就是我们所谓的分析的目的,到底哪个是因哪个是果就让人迷糊了。

一般来讲,数据分析的目的主要是了解现状、分析原因以及预测未来等方面。那么我们是否可以理解数据挖掘也是从这些方面来入手呢?作为一个新手,我就暂且这么认为吧。那么要想达到分析的目的,我们应该怎么去做?

4.数据分析的主要方法有哪些?

或许这方面对数据的要求比较高,概率论和统计分析等初高中数学知识就是基础了。

我一开始并不理解所谓的分析方法和分析模型有什么用,他们出现的目的是什么,后来慢慢的用的稍微多了也就理解了一点。

一般我们所说的分析方式就是指类似于回归分析、相关分析、聚类分析等,这都是前辈们从客观实践中总结出来的方法,辣么对于我们新手来讲,如何选择一个合适的分析方法是绝对分析质量的关键,这也就进一步要求我们对现在已有的分析了如指掌。(这可能也是我下一个学习的目标)

但是,模板终归是模板,具体情况具体分析,所以在选择正确分析方法的前提下可能还需要加入自身实际的情况,比如参数个数不一样,比如分析过程需要自己加入一些步骤等。

5.后面分享几个容易搞混的概念,感觉还蛮有用的。

第一个:倍数和番数。

    倍数是我们在数学中见的最多,概念也好理解,A 除于 B 等于 C,就数A是B的C倍,是被除数与除数的关系。

    番最多见到的就是国家制定计划时喜欢用,比如经济总量翻一番。番的概念就是指原来数量的2的N次方倍。举个栗子,翻一番就是为原来数量的2倍,翻两番就是原来的4倍(2的2次方)。

第二个:比例和比率。

    “比例”是指总体中的一部分占总体数量的比例值。而“比率”是指总体中不同部分之间的比值。比如:说某高校男女生比率是7:3,而不是比例是7:3。

第三个:同比和环比。

    “同比”就概念来讲是指同一时期数值的比较,但是同一时期是指与历史同时期,所以同比只能把现在的情况和过去的情况对比。

    “环比”有点环环相扣进行比较的意思,书面理解就是与前一个统计期进行比较得到的数值,前一个统计期可以是年、季、月、日等。


第一次写笔记,也是为了能够记录自己学习的新的,如果大家有看到错误的,希望纠正。

1 0