python 爬虫练习二, 爬取python标准库为pdf
来源:互联网 发布:cf驱动辅助源码 编辑:程序博客网 时间:2024/06/05 15:17
爬取python标准库
想要把Python的标准库文档趴下来,试过直接存成html,但是简单的存储css的样式等都会丢失,遂想存为pdf。
需要一个工具pdfkit,结合之前的selenium爬下来。
首先需要
pip install pdfkit
# coding:utf-8import urllibfrom urllib import requestimport os,timefrom os import pathfrom selenium import webdriverimport pdfkitimport re#去掉尖括号之间的内容def transname(name): pattern = '<.*?>' res = re.compile(pattern).sub("",name) return resurl_root = 'https://docs.python.org/3/library/'url_index = url_root + 'index.html'result_dir = path.join(os.getcwd(),'result')if not path.exists(result_dir): os.makedirs(result_dir)#pdfkit.from_url(url_index,path.join(result_dir,'index.pdf'))driver = webdriver.PhantomJS()# driver = webdriver.Firefox()driver.get(url_index)html_index = driver.page_sourcepattern = '<li class="toctree-l[12]"><a class="reference internal" href="(.+?)">(.+?)</a>'res = re.compile(pattern,re.S).findall(html_index)print(res)ct = 0amt = len(res)for i,x in enumerate(res): if i<127: continue addr = url_root + x[0] if re.compile('.*\.html$').match(addr): name = re.compile(os.sep).sub(r'-',x[1]) #去掉系统转换的符号,防止误把路径分割了 name = path.join(result_dir,name+'.pdf') name = transname(name) ct = ct + 1 print(ct,'/',i+1,'/',amt,addr,name) pdfkit.from_url(addr,name) else: amt = amt - 1
结果
阅读全文
0 0
- python 爬虫练习二, 爬取python标准库为pdf
- Python爬虫练习笔记二
- python爬虫-豆瓣爬取数据保存为html文件
- Python爬虫爬取动态页面思路+实例(二)
- python爬虫进阶(二):动态网页爬取
- python爬虫系列之爬取百度文库(二)
- python 爬虫爬取所有上市公司公告信息(二)
- python爬虫爬取段子
- python爬虫爬取图片
- python爬虫爬取网络小说
- Python 爬虫 爬取视频
- python爬虫爬取csdn
- Python爬虫:抓取Python教程保存为PDF电子书
- Python标准库(二)
- python网络爬虫学习(二)一个爬取百度贴吧的爬虫程序
- python网页爬虫练习
- python爬虫第一次练习
- Python爬虫练习
- HDOJ 士兵队列训练问题 JAVA 1276
- RadioButton加Fragment,点击按钮替换布局,注册Fragment
- AGC:D
- C语音基础与提高1
- IDEA第一次配置web项目报错Cannot resolve symbol 'servlet' 配置tomcat
- python 爬虫练习二, 爬取python标准库为pdf
- mysql mysqldump只导出表结构或只导出数据的实现方法
- 5.5判断是否是闰年
- Jfinal学习日志第三章_Controller(详细图解)
- EventBus
- 安卓后台播放音乐
- 人工智能发展背后的安迪比尔定理
- python-037
- 简单的OKHttp