知乎爬虫

来源:互联网 发布:一钻淘宝账号多少钱 编辑:程序博客网 时间:2024/04/28 23:22

        断断续续写的爬虫现在总算能用了,主要功能是将知乎收藏夹保存下来并通过邮箱发送到手机上。

        期间学习到的内容主要为:re模块、mail模块、decode和encode、ini文件以及Beautifulsoup,当然学习的过程显得仓促浅显,对于这些内容的更加深入的学习也是接下来的任务之一。

        完成期间耗费时间最多的地方出现在自己老想着如何将HTML转换为更加适合在手机上阅读的PDF格式,为此我尝试了许多模块:xhtml2pdf、pdfkit、weasyprint。。。结果都有各自的瑕疵。虽然最终找到了Sigil来把HTML转换为EPUB电子书格式,但觉得在这种过于细节的地方花费大量时间显得有些不值。
        当然这一爬虫不会就这样结束,接下来将会尝试在其中加入多线程。
        附上爬虫地址:https://github.com/bmind/zhihu-crawler/
0 0