抓取问题

来源:互联网 发布:网络借贷信息披露细则 编辑:程序博客网 时间:2024/06/01 10:17

1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。

问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;

解决方法:1、对于抓取下来的网页,对于文本量稍大的话,正则匹配会慢一些,可能会出错,可以将不相关的源码文本去掉,同正则只匹配与正则表达式相关的块源码文本  

                    2、如果用beautifulsoup第三方包会不会好点


2、对于1出现的问题,如果继续用正则处理,我们可以将那些理论上能够抓取到的数据,但是实际上没有抓取到的,可以先跳过去这些页面,继续后面的页面的抓取,把这些没有抓取到的页面的 url 记录下来,当网站抓取完毕后,再重新抓取这么记录下来的 url



多线程

http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/



0 0
原创粉丝点击