htmlparser过滤关键字
来源:互联网 发布:淘宝网男真皮登山背包 编辑:程序博客网 时间:2024/04/30 19:36
import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.util.SimpleNodeIterator;
public class TestPs {
/**
* @param args
*/
public static void main(String[] args) throws Exception{
// TODO Auto-generated method stub
extractKeyWordText("http://www.baidu.com","百度");
}
public static void extractKeyWordText(String url, String keyword) {
try {
//生成一个解析器对象,用网页的 url 作为参数
Parser parser = new Parser(url);
//设置网页的编码,这里只是请求了一个 gb2312 编码网页
parser.setEncoding("gb2312");
//迭代所有节点, null 表示不使用 NodeFilter
NodeList list = parser.parse(null);
//从初始的节点列表跌倒所有的节点
processNodeList(list, keyword);
} catch (ParserException e) {
e.printStackTrace();
}
}
private static void processNodeList(NodeList list, String keyword) {
//迭代开始
SimpleNodeIterator iterator = list.elements();
while (iterator.hasMoreNodes()) {
Node node = iterator.nextNode();
//得到该节点的子节点列表
NodeList childList = node.getChildren();
//孩子节点为空,说明是值节点
if (null == childList)
{
//得到值节点的值
String result = node.toPlainTextString();
//若包含关键字,则简单打印出来文本
if (result.indexOf(keyword) != -1)
System.out.println(result);
} //end if
//孩子节点不为空,继续迭代该孩子节点
else
{
processNodeList(childList, keyword);
}//end else
}//end wile
}
}
- htmlparser过滤关键字
- HTMLParser 过滤Filter
- HTMLParser包的过滤分析
- 关键字过滤
- 关键字过滤
- 关键字过滤
- 关键字过滤
- 关键字过滤 脏话过滤
- 过滤关键字大全-网页关键字过滤-sql注入关键字过滤
- 过滤关键字大全-网页关键字过滤-sql注入关键字过滤
- 过滤sql关键字
- 关键字过滤方法
- 过滤SQL关键字方法
- java过滤关键字
- asp.net关键字过滤
- 关键字过滤方法
- java关键字过滤技术
- java 关键字过滤
- 24 不要轻放过不起眼的问题
- jsp标签----20个
- TCHAR操作函数
- sgu124
- windows下tftp服务器
- htmlparser过滤关键字
- 利用串口下载文件到内存(SDRAM)中(loadb命令)
- System Variables Toutorial
- vs编译程序在Win7下提示无法运行解决方法
- JNI技术与Android应用
- Httpclient和htmlparser使用
- USTCOJ 1264 Longest ‘V’ sequence
- U-boot中增加ping命令
- Android HAL实现的三种方式(1) - 基于JNI的简单HAL设计