抓取解压
来源:互联网 发布:健身大数据 编辑:程序博客网 时间:2024/04/28 16:24
对于一个经过Gzip压缩的网页,如果网页直接用浏览器打开,当然没什么问题,因为浏览器会自动的替您解压,当然这个时候,你查看网页源代码,看到的应该是正常的html代码。
可是如果使用HttpWebResponse来获取网页内容的时候,就比较麻烦,因为,你首先获取到的是一个回应流,当然,对于网页来说,本质上是个文本内容,所以要使用StreamReader来读取,当然这个时候需要将网页的编码格式给扔进去,如果没有Gzip压缩,那么一路顺利,肯定能得到正常的结果,一旦压缩了,那麻烦就来了。
无Gzip压缩情况:
有Gzip压缩,但无解压:
可以看的出来Gzip压缩的流,用平常的方式取到的内容是乱码。
有Gzip压缩,有解压的情况:
完整代码如下:
无Gzip压缩:
打完收工。
1 0
- 抓取解压
- 抓取解压
- python抓取时gzip解压
- 关于抓取的用gzlib压缩的网页的解压
- 抓取
- 抓取
- 使用 Apache HttpClient 工具模拟百度蜘蛛或浏览器抓取和解压gzip网页
- 解压
- 解压
- 解压
- 解压
- 解压
- 解压
- 解压
- 解压
- 解压
- 抓取文章
- 网页抓取
- 设计模式最后一击
- HDOJ——简单题2(1008,1012)
- Notepad++去除代码行号的几种方法
- sqlserver 索引的一些总结
- Hduoj1172【暴力】
- 抓取解压
- spring包的详解
- 寻找只出现一次的数字(LeetCode: Single Number II)
- 【Android】不要在Application对象中缓存数据!
- asp.net mvc 的 视图(view )的模块化开发
- iframe 父子页面操作
- 优酷首页出现“此网页包含过多的循环重定向”错误的解决办法
- java类加载器-动态代理类-Properties类使用
- hbase基本概念和hbase shell常用命令用法