用htmlparser截取新闻内容 java

来源：互联网发布：淘宝手推货车编辑：程序博客网时间：2024/06/07 03:29

最近做毕设，需要从各大网站上下载网页，并提取出标题，作者，正文，日期等新闻内容。标题，作者，日期等因为长度较小，变化少，所以很容易搞定，而正文的抽取对于我这个刚学htmlparser的人来说就有些复杂了。由于正文标签中各种类型子标签的存在（如图片信息，超链接，粗体），使提取正文的内容变得有些不易。最近刚发现了StringBean这个好东西，它是visitor的一个子集，遍历所有节点，抽取文字信息，但是如果直接使用，遍历所有节点，会导致抓取到不需要的信息。所以，解决方法是，先用filter过滤到符合要求的正文节点，然后用StringBean遍历符合要求的所有节点，获取想要的新闻内容。

这里以news.qq.com里的新闻为例，分析2010年以后的QQ新闻（2010年以前QQ使用的是老网页模板，需要照具体情况改动filter的内容，就不一一列举了；并且只列举正文一种情况，日期，导读等另行添加代码，原理不变）

import org.htmlparser.beans.*;
import org.htmlparser.tags.*;
import org.htmlparser.filters.*;
import org.htmlparser.NodeFilter.*;
import org.htmlparser.Node.*;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.visitors.*;
import org.htmlparser.Tag;

之前的代码

String content="";//content存储新闻正文内容

Parser parser = Parser.createParser(pageHTML, "GBK");//pageHTML是我下载到的网页源代码，也可以用url参数来创建一个parser.
            NodeFilter filter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "Cnt-Main-Article-QQ"));//腾讯2010年以后的网页大多采用新模板
            //不能用"h1"标签来判断新模板，因为2009年有特例。所以要看<div id="Cnt-Main-Article-QQ">,有这个的是新模板。
            NodeFilter pf = new AndFilter(new NodeClassFilter(ParagraphTag.class), new HasParentFilter(filter));
            //在<div id="Cnt-Main-Article-QQ">底下的p标签里的内容才是新闻正文内容
            nodes = parser.parse(pf);//提取所有符合要求的正文节点

            if (nodes.size() > 0)//以下是新模板对应的标签提取工作
            {
                StringBean sb = new StringBean();
                sb.setCollapse(true);
                nodes.visitAllNodesWith(sb);
                if (sb.getStrings() != null) {
                    content += sb.getStrings();

//这样，就获取了新闻的内容

}

之后的代码