关于数据获取的几点经验

来源:互联网 发布:淘宝卖的小样是真的吗 编辑:程序博客网 时间:2024/06/05 03:53

俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。

数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程:

 

(1)公开数据库

这些公开数据库提供的数据结构良好,而且来源可信,是数据来源的首选。代表性的有:

国外:

ProPublica数据库:https://projects.propublica.org/data-store

Google公共数据资源:http://www.google.com/publicdata

世界银行数据库:http://data.worldbank.org.cn

... ...

 

国内:

中华人民共和国国家统计局:http://www.stats.gov.cn

... ...

 

(2)搜索引擎

其实公开数据库中也会用到搜索,只不过其搜索的范围是自身数据库。如果公开数据库中不能获取,那么我们就可以使用搜索引擎从整个互联网中寻找。最常用的搜索引擎有百度和谷歌(谷歌需要翻墙使用),另外还有一些不太常用但是某些方面比较独到的搜索引擎,比如新浪爱问。

 

(3)网页抓取

如果以上两种方式均不能满足,那么可以直接网页抓取,前提是你已经找到了存放数据的一系列网页,这时候就可以利用抓取软件(如import.io等)或者编程(如R或Python)获取。不过采取这种方式获取的数据往往需要进行清洗工作,抓取完成后就需要OpenRefine上场了。

 

以上三种方式将另文详细分别作介绍,其实除了上述三种方式外,我们还可以通过申请政府信息公开获取数据,或者采取互联网众包方式获取数据,但其较难操作且效果不易把控。另后续将对以上三种数据获取方式作专题介绍。

原创粉丝点击