谷歌GDELT数据下载代码

来源:互联网 发布:怪物猎人p3雷狼数据 编辑:程序博客网 时间:2024/05/16 03:19

在上一篇博客中,我对GDELT数据进行了说明,在这篇文档中直接上代码,有需要的可以直接使用并下载数据,有问题欢迎留言。

GDELT提供了好几种数据,包括gkg、event、mentions等数据,我在代码中下载的是event数据,可以自己修改原始链接,代码应该可以通用,原理是一样的。

需要注意,数据量较大,截止到2017.7.18全部下载下来需要150多GB,所以下载的时候最好下载到硬盘中,免得电脑内存不足。


#-*-coding:utf-8-*-import requestsfrom bs4 import BeautifulSoupimport datetime, timeimport zipfileimport sysimport multiprocessingimport randomimport ospath = sys.path[0] +'/'def get_url_list(url):    '''获取页面下的所有url,保存到url_list.txt中,并返回url_list'''    html = requests.get(url).text    soup = BeautifulSoup(html, 'lxml')    url_list = []    for li in soup.body.ul.find_all('li'):        href = 'http://data.gdeltproject.org/events/' + li.a['href']        url_list.append(href)    print len(url_list)    new_url_list = url_list[3:-1] #前三个url和最后一个不是我们需要的数据,故跳过    f = open(path + 'url_list.txt', 'w')    for url in new_url_list:        f.write(url)        f.write('\n')    return new_url_listdef get_url_data(url):    filename = path + url.split('/')[-1]    try:        data = requests.get(url)        t = random.random()        #因为文件较多,所以选择随机输出url,便于掌握运行情况        if t > 0.5:            print url        with open(filename, "wb") as code:            code.write(data.content)        fz = zipfile.ZipFile(filename, 'r')        fz.extract(fz.namelist()[0], path) #解压下载下来的zip文件夹        if os.path.exists(filename):            os.remove(filename) #删除zip文件夹,只保存解压后的数据    except Exception, e:        print Exception, e        log = open(path + 'log.txt', 'a')        log.write(url)        log.write('\n')    time.sleep(3)if __name__ == '__main__':    stime = datetime.datetime.now()    print stime    url = 'http://data.gdeltproject.org/events/index.html'    url_list = get_url_list(url)    pool = multiprocessing.Pool() #开启进程池,使用多进程提高下载速度    pool.map(get_url_data, url_list)    etime = datetime.datetime.now()    print etime    print etime - stime
原创粉丝点击