Python3爬虫下载pdf(二)
来源:互联网 发布:行知学校 编辑:程序博客网 时间:2024/06/04 21:26
Python3爬虫下载pdf(二)
最近在学习python的爬虫,并且玩的不亦说乎,因此写个博客,记录并分享一下。
需下载下载以下模块
- bs4模块
- requests模块
一、源码
from concurrent.futures import ThreadPoolExecutorimport requests,argparse,re,osfrom bs4 import BeautifulSoup as Soupheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0' }## 设置命令行参数def setArgs(): parser = argparse.ArgumentParser(description="功能:下载pdf") parser.add_argument("url",help="目标url") parser.add_argument("-t","--thread",help="最大的线程数。默认为3",default=3,type=int) parser.add_argument("-f","--filedir",help="文件保存的路径.默认为当前目录下的downloads文件夹.如果不存在,便自动新建",default="downloads") return parser.parse_args()## 获取所有pdf的urldef getPdfUrl(root_url): response = requests.get(root_url, headers=headers) ## 如果requests没有从页面中获得字符编码,那么设置为utf-8 if "charset" not in response.headers: response.encoding = "utf-8" bsObj = Soup(response.text, "html.parser") pdfs = bsObj.find_all("a", {"href": re.compile(r'.pdf$')}) ## 获得一个字典,key为pdf完整url,value为pdf名称 url_pdfName = {root_url[:root_url.rfind("/")+1]+pdf["href"]:pdf.string for pdf in pdfs} return url_pdfName## 显示正在下载的pdf的名称def showPdf(pdf_name): print(pdf_name+"...")## 下载pdfdef savePdf(url,pdf_name): response = requests.get(url,headers=headers,stream=True) ## 如果指定的文件夹,那么便新建 if not os.path.exists(FILE_DIR): os.makedirs(FILE_DIR) ## os.path.join(a,b..)如果a字符串没有以/结尾,那么自动加上\\。(windows下) with open(os.path.join(FILE_DIR,pdf_name),"wb") as pdf_file: for content in response.iter_content(): pdf_file.write(content)## 设置要下载一个pdf要做的事情,作为线程的基本def downOne(url,pdf_name): showPdf(pdf_name) savePdf(url,pdf_name) print(pdf_name+" has been downloaded!!")## 开始线程def downPdf(root_url,max_thread): url_pdfName = getPdfUrl(root_url) with ThreadPoolExecutor(max_thread) as executor: executor.map(downOne,url_pdfName.keys(),url_pdfName.values())def main(): ## 获得参数 args = setArgs() ## 如果没有输入必须的参数,便结束,返回简略帮助 try: global FILE_DIR FILE_DIR = args.filedir downPdf(args.url,args.thread) except: exit()if __name__ == "__main__": main()
效果图
例子:
备注
with ThreadPoolExecutor(max_thread) as executor: executor.map(downOne,url_pdfName.keys(),url_pdfName.values())
- 使用工作的线程实例化ThreadPoolExecutor 类;executor.__exit__ 方法会调用executor.shutdown(wait=True) 方法,它会在所有线程都执行完毕前阻塞线程。
- map方法的作用与内置map函数类似,不过downOne函数会在多个线程中并发调用;map方法返回一个生成器。
global FILE_DIRFILE_DIR = args.filedir
- 设置了全局参数,用来接收文件路径的值
- 因为后面用executor.map() 传参的时候,参数必须是iterabe,不知道咋放了,所以就设了个全局变量
阅读全文
2 0
- Python3爬虫下载pdf(二)
- Python3爬虫下载pdf(一)
- python3爬虫下载网页上的pdf
- python3爬虫(网页下载)
- python3爬虫,最短时间实现(二)
- Python3 爬虫(二) -- 伪装浏览器
- Python3 爬虫(二) -- 伪装浏览器
- python3 爬虫环境准备 (二)
- Python3 -美女图片 爬虫 (二)
- python3 27270网站美女爬虫(二)
- python3爬虫初探(二)之requests
- 聚沙成塔--爬虫系列(二)(python3基础语法)
- (9)Python爬虫——下载PDF
- Python3爬虫(二)保存抓取网页的html
- python3 爬虫日记(二) 将数据存到Mongodb
- 小白Python3爬虫—HTTP(二)
- python3爬虫(二) re模块与正则表达式
- python3 爬虫入门(二)requests库基本使用
- 389. Find the Difference
- 网络流建模(一)
- 74. Search a 2D Matrix
- 学习图片格式
- Bochs上运行BIOS启动代码
- Python3爬虫下载pdf(二)
- 安卓四大组件(二)
- 网络中进程间的通信----Socket
- php之socket入门教程
- 让C#轻松实现读写锁分离--封装ReaderWriterLockSlim
- [Tyvj1655] 游乐园 二分查找
- 选择排序
- vim 在每一行前加#
- 队列