采集html代码的问题
来源:互联网 发布:js获取鼠标的位置 编辑:程序博客网 时间:2024/05/16 09:22
各网页的html的编码及压缩方式都不一样,对于一般的网页采用简单的设置就可以 webclinet就OK
但有些网页却不行。它采用了Gzip的压缩方式。因此要采用多元化的采集。。
WebClient wba = new WebClient(); //一定要加以下二行。否则部分网页采集出错 。 wba.Headers.Add("Accept-Encoding", "gzip, deflate"); wba.Headers.Add("User-Agent", "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; MS-RTC LM 8; InfoPath.2; .NET4.0C; .NET4.0E)"); byte[] sts = wba.DownloadData("http://www.39.net/"); return Encoding.GetEncoding(0).GetString(sts);
建议使用HttpRequest来下载html代码,他能自动地解压 Gzip
必须 User-Agent和Accept-Encodingr
有这两个header就能获取
有这两个header就能获取
HttpWebRequest 能自动解码 gzip 和 deflate的压缩
- 采集html代码的问题
- html问题采集
- 采集负样本的代码
- 多线程采集的核心代码
- 解决 html 代码不解析 的问题
- 页面存储html代码遇到的问题
- 贴吧的html代码问题
- HTML代码换行引起的空格问题
- html个人信息采集表格的简单使用
- PHP采集指定HTML标签代码内容分享
- 基于zigbee+arm+nodejs+html环境信息采集代码
- 大恒采集卡的,采集c++代码
- ftp数据采集的代码(一次性数据采集)
- 一段ASP防采集的代码
- 采集信息和分析信息的代码
- asp简单的采集代码教程
- asp代理采集的核心函数代码
- asp代理采集的核心函数代码
- FileItem类
- u-boot_smdkv210 分析七:Makefile详解
- 霸气.value=?
- 演讲四要素
- Linux上JDK的 安装和卸载 详细 (转)
- 采集html代码的问题
- UIButton添加图片
- 卡特兰数列
- Cobertura - Java coverage analysis tool
- 开源来袭:Cobub Razor移动应用统计SDK浅析
- 帧、关键帧和空白关键帧的作用
- 查看每个扩展下面的函数
- JSP将页面checkbox选择的多项数据传到Action中进行处理
- 设计公共API的六个注意事项