关于实验数据gdlet的下载

来源:互联网 发布:java程序输出日志文件 编辑:程序博客网 时间:2024/05/01 23:52

关于gdlet数据下载

方法一:从源始数据下

这个比较蛋疼,对于1.0版本的数据不好,有1000多个文件,如果是2.0的版本,光源始数据就有4万多个。
我找了半天,最后使用wget 下载的。还比较不错。最好32,64两个版本都试试,可能有的系统64位的不能用。
wget使用参考:http://blog.csdn.net/u014492257/article/details/45477113
wget下载地址:https://eternallybored.org/misc/wget/

第一步:把官网上的数据列表文件下载下来
gdlet.1.0
http://data.gdeltproject.org/events/filesizes
gdlte.2.0
http://data.gdeltproject.org/gdeltv2/masterfilelist-translation.txt
http://data.gdeltproject.org/gdeltv2/masterfilelist.txt

第二步:修改数据列表文件
对于1.0数据源文件内容

1088704384 GDELT.MASTERREDUCEDV2.1979-2013.zip14276482 1979.zip18619859 1980.zip22838639 1981.zip25419330 1982.zip28508265 1983.zip29736457 1984.zip33036969 1985.zip35702467 1986.zip

改成

http://data.gdeltproject.org/events/GDELT.MASTERREDUCEDV2.1979-2013.ziphttp://data.gdeltproject.org/events/1979.ziphttp://data.gdeltproject.org/events/1980.ziphttp://data.gdeltproject.org/events/1981.ziphttp://data.gdeltproject.org/events/1982.ziphttp://data.gdeltproject.org/events/1983.ziphttp://data.gdeltproject.org/events/1984.ziphttp://data.gdeltproject.org/events/1985.ziphttp://data.gdeltproject.org/events/1986.zip

对于2.0数据源文件内容

150383 297a16b493de7cf6ca809a7cc31d0b93 http://data.gdeltproject.org/gdeltv2/20150218230000.export.CSV.zip318084 bb27f78ba45f69a17ea6ed7755e9f8ff http://data.gdeltproject.org/gdeltv2/20150218230000.mentions.CSV.zip10768507 ea8dde0beb0ba98810a92db068c0ce99 http://data.gdeltproject.org/gdeltv2/20150218230000.gkg.csv.zip149211 2a91041d7e72b0fc6a629e2ff867b240 http://data.gdeltproject.org/gdeltv2/20150218231500.export.CSV.zip339037 dec3f427076b716a8112b9086c342523 http://data.gdeltproject.org/gdeltv2/20150218231500.mentions.CSV.zip10269336 2f1a504a3c4558694ade0442e9a5ae6f http://data.gdeltproject.org/gdeltv2/20150218231500.gkg.csv.zip149723 12268e821823aae2da90882621feda18 http://data.gdeltproject.org/gdeltv2/20150218233000.export.CSV.zip357229 744acad14559f2781a8db67715d63872 http://data.gdeltproject.org/gdeltv2/20150218233000.mentions.CSV.zip11279827 66b03e2efd7d51dabf916b1666910053 http://data.gdeltproject.org/gdeltv2/20150218233000.gkg.csv.zip158842 a5298ce3c6df1a8a759c61b5c0b6f8bb http://data.gdeltproject.org/gdeltv2/20150218234500.export.CSV.zip374528 dd322c888f28311aca2c735468405551 http://data.gdeltproject.org/gdeltv2/20150218234500.mentions.CSV.zip11212939 cd20f295649b214dd16666ca451b9994 http://data.gdeltproject.org/gdeltv2/20150218234500.gkg.csv.zip362610 c4268d558bb22c02b3c132c17818c68b http://data.gdeltproject.org/gdeltv2/20150219000000.export.CSV.zip287807 e7f464a7a451ad2af6e9c8fa24f0ccea http://data.gdeltproject.org/gdeltv2/20150219000000.mentions.CSV.zip9728953 8f4b26e134bd6605cce2d32e92e5d3d7 http://data.gdeltproject.org/gdeltv2/20150219000000.gkg.csv.zip251605 7685a6c71f010918f3be0d4ed2be977e http://data.gdeltproject.org/gdeltv2/20150219001500.export.CSV.zip

改成,只要export,不要mentons和gkg数据

http://data.gdeltproject.org/gdeltv2/20150218224500.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150218230000.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150218231500.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150218233000.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150218234500.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150219000000.translation.export.CSV.ziphttp://data.gdeltproject.org/gdeltv2/20150219001500.translation.export.CSV.zip

在命令行打开到要下载文件目录,使用 “wget -i 数据源文件列表”命令下载。当然可以把数据源文件列表分成多个文件,多开几个wget进行多进程下载。

方法二:从百度云上,下载

我把已经下过的上传到百度去,其他的,可以再去官网上增量下载

百度云下载地址:http://pan.baidu.com/s/1c1MAdCc

1 0