关于数据获取的几点经验
来源:互联网 发布:淘宝卖的小样是真的吗 编辑:程序博客网 时间:2024/06/05 03:53
俗话说:“巧妇难为无米之炊”,这说的是即使媳妇厨艺高超,如果没有食材的话也会一筹莫展。对于数据分析领域,首要面对的问题也一样:如何获得数据。本文就对数据获取的方方面面作个小结,以供各位“巧媳妇”参考。
数据获取也需要有一个流程框架,不然会出现乱找一起的局面,好点的情况是不全面,不好的情况是完全寻不着,以下小结了我总结的数据获取流程:
(1)公开数据库
这些公开数据库提供的数据结构良好,而且来源可信,是数据来源的首选。代表性的有:
国外:
ProPublica数据库:https://projects.propublica.org/data-store
Google公共数据资源:http://www.google.com/publicdata
世界银行数据库:http://data.worldbank.org.cn
... ...
国内:
中华人民共和国国家统计局:http://www.stats.gov.cn
... ...
(2)搜索引擎
其实公开数据库中也会用到搜索,只不过其搜索的范围是自身数据库。如果公开数据库中不能获取,那么我们就可以使用搜索引擎从整个互联网中寻找。最常用的搜索引擎有百度和谷歌(谷歌需要翻墙使用),另外还有一些不太常用但是某些方面比较独到的搜索引擎,比如新浪爱问。
(3)网页抓取
如果以上两种方式均不能满足,那么可以直接网页抓取,前提是你已经找到了存放数据的一系列网页,这时候就可以利用抓取软件(如import.io等)或者编程(如R或Python)获取。不过采取这种方式获取的数据往往需要进行清洗工作,抓取完成后就需要OpenRefine上场了。
以上三种方式将另文详细分别作介绍,其实除了上述三种方式外,我们还可以通过申请政府信息公开获取数据,或者采取互联网众包方式获取数据,但其较难操作且效果不易把控。另后续将对以上三种数据获取方式作专题介绍。
- 关于数据获取的几点经验
- 值得看的几点关于cakephp的经验
- 关于现场软件安装的几点经验小结
- 关于VC6.0的几点使用经验
- 关于css控制ul li的几点经验
- 关于设计模式的几点经验分享
- 实施的几点经验
- 关于数据科学,书上不曾提及的三点经验
- 关于数据科学,书上不曾提及的三点经验
- 关于获取chromium最新源代码的几点疑惑
- 关于数据挖掘的几点体会(转载)
- 关于spring @ModelAttribute注解接收json数据的几点
- 关于Kafka的几点思考 -- 数据丢失&速度优化
- 关于大数据学习第一天的几点认识
- Overlay视频显示的几点经验
- Jsp 的几点基础经验
- 几点Session使用的经验
- java 输入输出操作的几点经验
- RDIFramework.NET ━ .NET快速信息化系统开发框架 V3.2->新增模块管理界面导出功能(可按条件导出)
- 常用控件
- unity获取Camera类型的对象
- Android 异步消息处理机制解析
- 【EXCEL】EXCEL做出下拉菜单
- 关于数据获取的几点经验
- Oracle多表连接
- Java琐碎小知识(四)
- 对于v-if 和 v-show的选择 --Vue.js
- 中英文对照 —— 数学分析
- golang struct继承测试
- 内存泄露和内存溢出区别
- 理解Java泛型 通配符 ? 以及其使用
- 数组对象的复制