知乎爬虫
来源:互联网 发布:一钻淘宝账号多少钱 编辑:程序博客网 时间:2024/04/28 23:22
断断续续写的爬虫现在总算能用了,主要功能是将知乎收藏夹保存下来并通过邮箱发送到手机上。
期间学习到的内容主要为:re模块、mail模块、decode和encode、ini文件以及Beautifulsoup,当然学习的过程显得仓促浅显,对于这些内容的更加深入的学习也是接下来的任务之一。
完成期间耗费时间最多的地方出现在自己老想着如何将HTML转换为更加适合在手机上阅读的PDF格式,为此我尝试了许多模块:xhtml2pdf、pdfkit、weasyprint。。。结果都有各自的瑕疵。虽然最终找到了Sigil来把HTML转换为EPUB电子书格式,但觉得在这种过于细节的地方花费大量时间显得有些不值。当然这一爬虫不会就这样结束,接下来将会尝试在其中加入多线程。
附上爬虫地址:https://github.com/bmind/zhihu-crawler/
0 0
- 知乎爬虫
- 知乎爬虫
- python 爬虫 知乎
- 知乎爬虫
- python爬虫知乎
- 知乎图片爬虫
- JAVA知乎爬虫
- 知乎爬虫
- 爬虫登录知乎
- 知乎爬虫(一)
- 知乎爬虫(二)
- 登录知乎的爬虫
- [Python] 知乎多线程爬虫
- 知乎爬虫web系统
- 第二次爬虫实战--知乎
- 爬虫模拟登录知乎
- 知乎爬虫(一)
- 知乎爬虫项目记录
- implement a function of String randomAlphabetic(int count)
- CODE:BLOCKS不支持C++11
- 前言
- 多个输入框合计计算
- 2014年5月总结及6月学习计划
- 知乎爬虫
- HighCharts使用心得
- iOS开发技巧总结
- MemCached入门
- WTL : create CtreeViewCtrl On CPaneContainerImpl
- hpc (惠浦电子(深圳)有限公司)
- 关于文件结构体FILE中的成员,以及如何通过文件句柄判断文件是打开还是关闭状态
- Go-Five things that make Go fast-学习笔记
- 架构模式