抓取问题

来源：互联网发布：网络借贷信息披露细则编辑：程序博客网时间：2024/06/01 10:17

1：按照正则抓取的话，对于大多数同网站的网页能都抓取，但是对于某一个或某几个页面正则匹配失败，但是正则表达式本身正确，因为它对其他相同页面可匹配；等过段时间再次抓取匹配，又匹配成功。

问题：如果在抓取了大量的数据后，突然遇到这种情况，程序崩掉，那么重新抓取，浪费时间，并且重新可能遇到该种情况；

解决方法：1、对于抓取下来的网页，对于文本量稍大的话，正则匹配会慢一些，可能会出错，可以将不相关的源码文本去掉，同正则只匹配与正则表达式相关的块源码文本

2、如果用beautifulsoup第三方包会不会好点

2、对于1出现的问题，如果继续用正则处理，我们可以将那些理论上能够抓取到的数据，但是实际上没有抓取到的，可以先跳过去这些页面，继续后面的页面的抓取，把这些没有抓取到的页面的 url 记录下来，当网站抓取完毕后，再重新抓取这么记录下来的 url

多线程

http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/

0 0