HttpClient抓取网页
来源:互联网 发布:江西广电网络公司老总 编辑:程序博客网 时间:2024/04/27 14:48
一、利用NodeFilter对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页
Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");
b.提取本地网页文件
通过读文件把网页文件转化成字符串;
Parser parser=Parser.createParser(html,charset);
2、利用NodeFilter做一个filter
a.利用Tag Name
NodeFilter filter=new TagNameFilter("IMG");
b.利用Tag Class
NodeFilter filter = new NodeClassFilter(ImageTag.class);
3、通过匹配filter,得到所有符合条件的Tag
NodeList list=parser.extractAllNodesThat(filter);
for(int i=0;i String content=list.elementAt(i).toHtml();//得到符合条件的Tag 内容
如果针对具体情况进行更加详细的处理,则:
ImageTag imageTag=(ImageTag)list.elementAt(i);
…………
}
然后根据需要做相应的处理。
二、利用Visitor对网页进行分析
1、生成一个Parser
a.通过url提取网络上的网页
Parser parser = new Parser();
parser.setURL("http://www.yahoo.com.cn");
b.提取本地网页文件
通过读文件把网页文件转化成字符串;
Parser parser=Parser.createParser(html,charset);
2、用visitor访问页面
ex:ObjectFindingVisitor visitor=new ObjectFindingVisitor();
parser.visitAllNodesWith(visitor);
3、通过特定的visitor得到符合条件的Tag
Node[] nodes=visitor.getTags();
for(int i=0;i ImageTag imageTag=(ImageTag)nodes[i];
…………
//根据需要做特定处理
}
- httpclient 网页抓取 几个问题
- HTTPCLIENT抓取网页内容
- HttpClient抓取网页
- HttpClient 抓取网页
- httpclient学习抓取网页
- 利用httpclient抓取网页内容
- HttpClient抓取网页文件方法
- 利用httpclient抓取网页内容
- HttpClient + Jsoup 网页数据抓取
- httpclient抓取https网页数据
- HttpClient+Jsoup 抓取网页信息
- 使用HttpClient远程抓取网页内容
- HttpClient抓取网页内容简单介绍
- 利用URL和httpclient抓取网页内容
- 使用HttpClient远程抓取网页内容
- 【网络编程】httpClient抓取网页--Windows
- HttpClient抓取网页内容简单介绍
- 使用HttpClient远程抓取网页内容
- centos6.4学习笔记
- Socket文件传输
- Redis 设计与实现
- ORA-01033: ORACLE initialization or shutdown in progress
- jquery 浏览器高度、宽度操作
- HttpClient抓取网页
- 编译SmartFox2X C++ API
- 【日期时间】批处理标准化获取当前系统日期
- Xcode分析CrashLog的方法
- 双目标定中stereoCalibrate()函数
- jquery,Js笔记
- 网页tab页面的logo
- PCA原理
- MySQL 最新版本5.6.13源码安装过程