数据挖掘常用的数据源

来源:互联网 发布:什么会引起荨麻疹知乎 编辑:程序博客网 时间:2024/04/29 17:32

有关数据提供的综合性网络服务日益增多。有些网络应用提供了大型的数据文件,供人有偿

或无偿下载。还有一些应用则由广大开发人员创建,通过应用编程接口(Application Programming

InterfaceAPI)获得数据。这能让我们运用某些服务应用(例如Twitter)的数据,并整合进自己

的程序中去。以下是其中一些资源。

. Freebasewww.freebase.com)——一个主要致力于提供关于人物、地点和事件的数据的

社区。它在数据方面有点类似维基百科,但网站的结构更清晰。可以下载网友上传的数

据文件,或者将你自己的数据进行备份。

. Infochimpshttp://infochimps.org)——数据市场,提供免费和收费的数据下载。你也可

以通过他们的API来获得数据。

. Numbraryhttp://numbrary.com)——为网上的数据进行编目,主要为政府数据。

. AggDatahttp://aggdata.com)——提供付费的数据集,多关注于各种零售业的地区性

数据。

. 亚马逊公用数据库(AmazonPublic Data Setshttp://aws.amazon.com/publicdatasets)——

更新不多,但确实有一些科研方面的大型数据集。

. 维基百科(http://wikipedia.org)——在这个靠社区运转的百科全书中有大量HTML表格格

专题性的数据

地理

只有绘制地图的软件,但却没有地理方面的数据?你走运了。有大量的形状特征文件和地区

性数据资料任你调用。

 TIGERwww.census.gov/geo/www/tiger/)——来自美国人口统计局,可能是目前最全、

最详细的有关道路、铁路、河流及邮政区域等方面的数据。

 OpenStreetMapwww.openstreetmap.org/)——最好的数据社区之一。

 Geocommonswww.geocommons.com/)——既有数据,又有地图绘制软件。

 Flickr Shapefileswww.flickr.com/services/api/)——根据Flickr用户上传照片获得的地理数据。

体育

人们热爱体育竞技方面的统计,近几十年来的竞技数据都不难找到。你可以在《体育画报》

等杂志或者各球队官方网站上找到它们,也可以去专门的数据型网站。

. Basketball Referencewww.basketball-reference.com/)——提供每一场NBA赛事的详细数据。

. Baseball DataBankhttp://baseball-databank.org/)——可以下载到美职棒联赛完整数据的

入门级网站。

. databaseFootballwww.databasefootball.com/)——可浏览全美橄榄球联盟(NFL)所有球

队、球员和赛季的数据。

全球

一些大的国际性组织都有关于全球性的数据,主要集中在卫生保健和发展指标等方面。不

过需要筛选一下,因为大部分数据都相对稀疏。在各个国家的数据间建立统一的衡量标准也不

太容易。

. 全球卫生事实数据库(GlobalHealth Factswww.globalhealthfacts.org/)——世界各国医

疗卫生方面的数据。

. UNdatahttp://data.un.org/)——来源众多的全球数据聚合。

. 世界卫生组织(World HealthOrganizationwww.who.int/research/en/)——同样是医疗卫

生方面的数据,例如死亡率及平均寿命。

. 经合组织统计(OECDStatisticshttp://stats.oecd.org/)——各国经济指标数据的主要来源。

. 世界银行(World Bankhttp://data.worldbank.org/)——数百种指标数据,而且便于调用

政府与政治

近年来开始强调数据的透明公开,因此许多政府机构都公布了数据,而类似阳光基金会

Sunlight Foundation)这样的组织也鼓励开发和设计人员对其加以利用。自从data.gov网站启动

后,很多政府数据被集中到了一处。我们还能找到许多对政治家起到舆论监督作用的非官方机

构网站。

. 美国人口统计局(www.census.gov/)——大量的人口统计资料。

. Data.govhttp://data.gov/)——为政府机构提供的数据进行编目。相对还比较新,但拥有

很多资料来源。

Data.gov.ukhttp://data.gov.uk/)英国的Data.gov

DataSFhttp://datasf.org/)专门提供旧金山的相关数据

NYC DataMinehttp://nyc.gov/data/)和DataSF相似

Follow the Moneywww.followthemoney.org/)大量工具和数据集

OpenSecretswww.opensecrets.org/)提供政府在竞选方面的数据

0 0