程序博客网 > 健身大数据

抓取解压

来源：互联网发布：健身大数据编辑：程序博客网时间：2024/04/28 16:24

对于一个经过Gzip压缩的网页，如果网页直接用浏览器打开，当然没什么问题，因为浏览器会自动的替您解压，当然这个时候，你查看网页源代码，看到的应该是正常的html代码。

可是如果使用HttpWebResponse来获取网页内容的时候，就比较麻烦，因为，你首先获取到的是一个回应流，当然，对于网页来说，本质上是个文本内容，所以要使用StreamReader来读取，当然这个时候需要将网页的编码格式给扔进去，如果没有Gzip压缩，那么一路顺利，肯定能得到正常的结果，一旦压缩了，那麻烦就来了。

无Gzip压缩情况：

Gzip压缩的HttpWebResponse的处理

有Gzip压缩，但无解压：

Gzip压缩的HttpWebResponse的处理

Gzip压缩的HttpWebResponse的处理

可以看的出来Gzip压缩的流，用平常的方式取到的内容是乱码。

有Gzip压缩，有解压的情况：

Gzip压缩的HttpWebResponse的处理

完整代码如下：

无Gzip压缩：

HttpWebRequest wr = (HttpWebRequest)HttpWebRequest.Create("http://blog.sina.com.cn/dalishuishou");

HttpWebResponse wsp = (HttpWebResponse)wr.GetResponse();

Stream st = wsp.GetResponseStream();

StreamReader sr = new StreamReader(st, Encoding.Default);

string s = sr.ReadToEnd();

Console.WriteLine(s);

有Gzip压缩：

HttpWebRequest wr = (HttpWebRequest)HttpWebRequest.Create("http://icy-rainy-day.blog.sohu.com/");

HttpWebResponse wsp = (HttpWebResponse)wr.GetResponse();

Stream st = wsp.GetResponseStream();

if (wsp.ContentEncoding.ToLower().Contains("gzip"))

{

st = new GZipStream(st, CompressionMode.Decompress);

}

StreamReader sr = new StreamReader(st, Encoding.Default);

string s = sr.ReadToEnd();

Console.WriteLine(s);

打完收工。

1 0

健身大数据

健身大数据

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子年轻男装品牌男士品牌服装排名世界服装品牌排名男士服装品牌男士正装品牌男人服装品牌国产服装品牌排行榜潮流品牌排行榜男士名牌服装男士西装品牌男士服装品牌排行榜男士服装品牌大全男士西服品牌排行榜男士衣服品牌排行世界休闲品牌排行榜青年男士服装品牌世界衣服牌子排名男士休闲品牌男士衣服牌子大全衣服品牌排行男士西装品牌排行榜品牌西装男士休闲服装品牌世界名牌衣服女西装品牌衣服牌子排名男人品牌服装有哪些衣服品牌排行榜男生穿衣风格海男服装男款衣服品牌男生衣服品牌大全品牌羽绒服有哪些牌子男式羽绒服品牌大全休闲服装品牌大全男服装品牌男生服装男士休闲装品牌男生衣服品牌男士皮带品牌男士皮带品牌排行