htmlparser过滤关键字

来源：互联网发布：淘宝网男真皮登山背包编辑：程序博客网时间：2024/04/30 19:36

import org.htmlparser.Node;
import org.htmlparser.Parser;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.ParserException;
import org.htmlparser.util.SimpleNodeIterator;

public class TestPs {

/**
* @param args
*/
public static void main(String[] args) throws Exception{
  // TODO Auto-generated method stub
  extractKeyWordText("http://www.baidu.com","百度");
}

public static void extractKeyWordText(String url, String keyword) {
  try {
            //生成一个解析器对象，用网页的 url 作为参数
   Parser parser = new Parser(url);
   //设置网页的编码,这里只是请求了一个 gb2312 编码网页
   parser.setEncoding("gb2312");
   //迭代所有节点, null 表示不使用 NodeFilter
   NodeList list = parser.parse(null);
            //从初始的节点列表跌倒所有的节点
   processNodeList(list, keyword);
  } catch (ParserException e) {
   e.printStackTrace();
  }
}

private static void processNodeList(NodeList list, String keyword) {
  //迭代开始
  SimpleNodeIterator iterator = list.elements();
  while (iterator.hasMoreNodes()) {
   Node node = iterator.nextNode();
   //得到该节点的子节点列表
   NodeList childList = node.getChildren();
   //孩子节点为空，说明是值节点
   if (null == childList)
   {
    //得到值节点的值
    String result = node.toPlainTextString();
    //若包含关键字，则简单打印出来文本
    if (result.indexOf(keyword) != -1)
     System.out.println(result);
   } //end if
   //孩子节点不为空，继续迭代该孩子节点
   else
   {
    processNodeList(childList, keyword);
   }//end else
  }//end wile
}
}