用scrapy实现文件的下载

来源:互联网 发布:禁用windows defender 编辑:程序博客网 时间:2024/06/06 02:54

网上给的很多例子都是爬取图片并下载图片,我主要讲述一下如何利用scrapy下载网站中的附件,以PDF文件为例进行讲解。

我的环境如下:

Python 3.6.0 |Anaconda custom (32-bit)| (default, Dec 23 2016, 12:06:52) [MSC v.1900 32 bit (Intel)] on win32

Scrapy 1.4.0

例如:下载下面链接的一个PDF文件。
http://xinpi.cs.com.cn/new/file/bulletin/2017/7/11/1203693682.PDF

>>> import urllib.request>>> attachment_url = 'http://xinpi.cs.com.cn/new/file/bulletin/2017/7/11/1203693682.PDF'>>> file_path = 'attachment\\1.pdf' # 此处特别注意处理转义字符,'\1'表示>>> urllib.request.urlretrieve(attachment_url, file_path) # 第一个参数表示下载的链接,第二个参数表示存储的路径

在这段代码中要注意import urllib.request,如果只是导入urllib,会报错,如https://stackoverflow.com/questions/22278993/attributeerror-module-object-has-no-attribute-request所示。

原创粉丝点击