抓取问题
来源:互联网 发布:网络借贷信息披露细则 编辑:程序博客网 时间:2024/06/01 10:17
1:按照正则抓取的话,对于大多数同网站的网页能都抓取,但是对于某一个或某几个页面正则匹配失败,但是正则表达式本身正确,因为它对其他相同页面可匹配;等过段时间再次抓取匹配,又匹配成功。
问题:如果在抓取了大量的数据后,突然遇到这种情况,程序崩掉,那么重新抓取,浪费时间,并且重新可能遇到该种情况;
解决方法:1、对于抓取下来的网页,对于文本量稍大的话,正则匹配会慢一些,可能会出错,可以将不相关的源码文本去掉,同正则只匹配与正则表达式相关的块源码文本
2、如果用beautifulsoup第三方包会不会好点
2、对于1出现的问题,如果继续用正则处理,我们可以将那些理论上能够抓取到的数据,但是实际上没有抓取到的,可以先跳过去这些页面,继续后面的页面的抓取,把这些没有抓取到的页面的 url 记录下来,当网站抓取完毕后,再重新抓取这么记录下来的 url
多线程
http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/
0 0
- 抓取问题
- java网页抓取问题
- hibernate抓取效率问题
- Quora cqa问题抓取
- casperjs页面抓取问题
- http 抓取数据问题
- Nutch的抓取工作问题
- POST抓取页面的问题
- python抓取网页编码问题
- python3抓取网页解码问题!
- Fiddler抓取HttpClient数据抓取不到的问题
- 抓取
- 抓取
- java 抓取网页乱码问题处理
- php 关于抓取不到数据的问题
- 网页抓取中遇到的编码问题
- python抓取中文网页显示乱码问题
- 网页抓取中的debug 问题记录
- Java虚拟机之ClassLoader
- pomelo windows 安装流程心得
- 三极管的电平转换及驱动电路分析
- hdu3384_双连通分量_
- 错误:java.lang.IllegalArgumentException: attempt to create create event with null entity
- 抓取问题
- 通过批处理命令和计划任务实现程序的停止和监控重启动
- cc150第三章栈队列总结
- C 可变长参数 VS C++11 可变长模板
- linux 大量的TIME_WAIT解决办法
- CodeIgniter 向mysql插入数据包含字母、汉字问题
- 十进制转二进制
- win2003 server + iis6.0 无法播放flv视频解决办法
- JAVA学习篇--javaweb之Filter详解