知乎爬虫

来源：互联网发布：一钻淘宝账号多少钱编辑：程序博客网时间：2024/04/28 23:22

断断续续写的爬虫现在总算能用了，主要功能是将知乎收藏夹保存下来并通过邮箱发送到手机上。

期间学习到的内容主要为：re模块、mail模块、decode和encode、ini文件以及Beautifulsoup，当然学习的过程显得仓促浅显，对于这些内容的更加深入的学习也是接下来的任务之一。

完成期间耗费时间最多的地方出现在自己老想着如何将HTML转换为更加适合在手机上阅读的PDF格式，为此我尝试了许多模块：xhtml2pdf、pdfkit、weasyprint。。。结果都有各自的瑕疵。虽然最终找到了Sigil来把HTML转换为EPUB电子书格式，但觉得在这种过于细节的地方花费大量时间显得有些不值。
当然这一爬虫不会就这样结束，接下来将会尝试在其中加入多线程。
附上爬虫地址：https://github.com/bmind/zhihu-crawler/

0 0