网页抓取中的debug 问题记录
来源:互联网 发布:怎么看linux版本 编辑:程序博客网 时间:2024/06/11 16:20
今天做case分析,发现一个抓取失败的case,失败为抓取中错误。
使用wget 测试,发现经常出现connection reset by peer。
经过多次尝试,发现偶有成功案例。
后来使用curl测试了一下,发现是ok的。和wget的测试几乎倒转。(几乎全是成功,偶有失败,但是很少了)
查了下资料,对了wget和curl, 发现最大的区别是wget仅支持http 1.0,而curl默认支持的为http1.1。
而查询资料,http 1.0和http1.1 比较明显的区别是对长连接的支持和chunked的支持。基于此,
查看curl使用说明,使用curl -0 使用http1.0测试,发现失败又是很多。
同时使用http1.1时又做了个尝试,使用-H Connection:close 发现又失败很多。
目前的结论是必须http1.1 ,同时Connection:keep-alive 才能fix该case。
具体原因还待分析。mark一下。
- 网页抓取中的debug 问题记录
- 抓取网页中的链接
- 抓取网页中的链接
- 抓取网页中的链接
- 抓取网页中的数据
- java网页抓取问题
- python 解决抓取网页中的中文显示乱码问题
- Python3 抓取网页中的图片
- PYTHON抓取网页中的邮箱
- Python抓取网页中的链接
- 抓取指定网页中的邮箱地址
- 网页中的信息抓取(stream)
- Python3 抓取网页中的图片
- python抓取网页编码问题
- python3抓取网页解码问题!
- 网页信息抓取,分析方法记录
- 记录几个抓取网页内容的网站
- PHPSpider使用记录-post方式抓取网页
- linux 磁盘uuid获取
- python 操作mysql 数据库
- [转载]python编码转换遇到的非法字符的解决方法
- split 使用
- 【转载】Linux下显示IP地理位置信息的小工具-nali
- 网页抓取中的debug 问题记录
- 设计模式的原则
- 一、简单工厂(Simple Factory)模式
- 二、工厂方法(Factory Method) 模式
- 三、抽象工厂(Abstract Factory)模式
- 四、单例(Singleton)模式
- Java序列化与反序列化
- 五、建造(Builder)模式
- [转载]如何在vi中保存更改过的只读文件