我数据分析的套路

来源:互联网 发布:剑桥中国晚清史 知乎 编辑:程序博客网 时间:2024/04/30 03:03

经常读公众号文章的,或者在知乎关注我的同学都知道,我十分喜欢通过种种数据去揭露一个事实,而不是泛泛而谈,因为数据是不会说谎的,我以前写过很多数据分析的文章:

  • 华为闪存门背后的水军

  • 谁在为流量明星贡献流量?

  • 知乎的高质量用户在流失吗?


一直有同学向我反馈:每天看你发的数据分析的文章,心里痒痒,十分想自己也学习做一篇,不知道路人甲是否能分享一下文章中所涉及到的技术点,以及这种文章的写作思路。


我很愿意,知识应当是共享的,人是在分享中进步的,所以今天我打算说一说自己的数据分析的写作套路。


01.确定问题

首先,应该明确自己要分析的问题,比如说:

  • 鉴定淘宝上的某个商品是否有刷单行为

  • 鉴定华为的 P10 门有没有请水军来公关

  • 国产电影的整体质量近年是否在降低?


02.数据来源

现在我们已经知道了我们要去研究怎样的问题了,下一个很重要的问题就是数据来源哪里?抓怎样的数据?抓怎样的数据可以帮我我们解释我们提出的待分析的问题。


比如说我们想研究国产电影的整体质量近年是否在降低,那我们就要想:电影的质量是否可以量化?哪里可以有这几年的国产电影的数据?显然,豆瓣电影已经帮我们做到了这一点,于是我们只需要去把豆瓣的国产电影评分等信息全都提取出来即可。


又比如我们想研究淘宝的某个商品是否存在刷单行为,那我们就要想:刷单的行为有什么特征?显然,刷单的商品评论正常都会出现:短时间内突然出现超多商品评论,并且这些评论可能有很多是一样的内容。明确这一点,我们只需要去把这个商品的所有平均数据都提取出来。


通过上面两个例子,你应该会发现:IDEA很重要,要分析怎样的问题,数据来源哪里,因此通常第一步第二步是最重要的。


如何训练这种IDEA?我的建议是:多看看别人的数据分析的文章,如果可以的话强烈建议你经常性的做头脑风暴,尤其是你无聊无事可做的时候,我经常用来打发时间。


03.数据抓取

上一步已经确定了数据来源,巧妇难为无米之炊,有了数据我们才能进行分析,所以紧接着我们就要做数据采集。早期关注就关注公众号的同学应该对数据采集并不陌生,当然如果你还不太会,可以看我之前的文章:用Python爬网页需要了解什么背景知识 。


04.数据可视化

如果说确定问题是一个婴儿的雏形,那么数据就是他的身体内部构造,而可视化就是他的外表,可视化决定着这个婴儿的外貌,决定着别人是都喜欢你的可视化结果。


那么,如何做可视化?


如果你对Excle比较熟悉,并且你的可视化并没有涉及到太复杂的功能,那么我强烈推荐你使用Excle自带的图表功能。


如果你想要你的图表绚丽多彩,不妨试一试百度的唯一一款良心产品Echarts,图标多样并且灵活性很大,做出的也比较好看。


最后推荐一个我在每一篇数据分析文章中都用到的可视化工具Tableau,唯一的缺点是这是一个付费产品,好在如果你是学生,可以凭学生证免费使用。


05.再说一点

有很多同学说,不知道怎样的问题可以用数据来解释,怎样的问题无法用数据来解释。对此,我有一个建议:可以先抓取一些数据,对这些数据进行清理之后直接扔到 Tableau 里面,你会发现一些有意思的东西。


数据分析重点在IDEA,而这些IDEA是要经过不断的学习和思考的.

原创粉丝点击