用scrapy实现文件的下载

来源：互联网发布：禁用windows defender 编辑：程序博客网时间：2024/06/06 02:54

网上给的很多例子都是爬取图片并下载图片，我主要讲述一下如何利用scrapy下载网站中的附件，以PDF文件为例进行讲解。

我的环境如下：

Python 3.6.0 |Anaconda custom (32-bit)| (default, Dec 23 2016, 12:06:52) [MSC v.1900 32 bit (Intel)] on win32

Scrapy 1.4.0

例如：下载下面链接的一个PDF文件。
http://xinpi.cs.com.cn/new/file/bulletin/2017/7/11/1203693682.PDF

>>> import urllib.request>>> attachment_url = 'http://xinpi.cs.com.cn/new/file/bulletin/2017/7/11/1203693682.PDF'>>> file_path = 'attachment\\1.pdf' # 此处特别注意处理转义字符，'\1'表示>>> urllib.request.urlretrieve(attachment_url, file_path) # 第一个参数表示下载的链接，第二个参数表示存储的路径

在这段代码中要注意import urllib.request，如果只是导入urllib，会报错，如https://stackoverflow.com/questions/22278993/attributeerror-module-object-has-no-attribute-request所示。

阅读全文

0 0