用htmlparser截取新闻内容 java

来源:互联网 发布:淘宝手推货车 编辑:程序博客网 时间:2024/06/07 03:29

最近做毕设,需要从各大网站上下载网页,并提取出标题,作者,正文,日期等新闻内容。标题,作者,日期等因为长度较小,变化少,所以很容易搞定,而正文的抽取对于我这个刚学htmlparser的人来说就有些复杂了。由于正文标签中各种类型子标签的存在(如图片信息,超链接,粗体),使提取正文的内容变得有些不易。最近刚发现了StringBean这个好东西,它是visitor的一个子集,遍历所有节点,抽取文字信息,但是如果直接使用,遍历所有节点,会导致抓取到不需要的信息。所以,解决方法是,先用filter过滤到符合要求的正文节点,然后用StringBean遍历符合要求的所有节点,获取想要的新闻内容。

 

这里以news.qq.com里的新闻为例,分析2010年以后的QQ新闻(2010年以前QQ使用的是老网页模板,需要照具体情况改动filter的内容,就不一一列举了;并且只列举正文一种情况,日期,导读等另行添加代码,原理不变)

 

import org.htmlparser.beans.*;
import org.htmlparser.tags.*;
import org.htmlparser.filters.*;
import org.htmlparser.NodeFilter.*;
import org.htmlparser.Node.*;
import org.htmlparser.util.NodeList;
import org.htmlparser.util.NodeIterator;
import org.htmlparser.visitors.*;
import org.htmlparser.Tag;

 

/*

之前的代码

*/

String content="";//content存储新闻正文内容

Parser parser = Parser.createParser(pageHTML, "GBK");//pageHTML是我下载到的网页源代码,也可以用url参数来创建一个parser.
            NodeFilter filter = new AndFilter(new TagNameFilter("div"), new HasAttributeFilter("id", "Cnt-Main-Article-QQ"));//腾讯2010年以后的网页大多采用新模板
            //不能用"h1"标签来判断新模板,因为2009年有特例。所以要看<div id="Cnt-Main-Article-QQ">,有这个的是新模板。
            NodeFilter pf = new AndFilter(new NodeClassFilter(ParagraphTag.class), new HasParentFilter(filter));
            //在<div id="Cnt-Main-Article-QQ">底下的p标签里的内容才是新闻正文内容
            nodes = parser.parse(pf);//提取所有符合要求的正文节点

            if (nodes.size() > 0)//以下是新模板对应的标签提取工作
            {
                StringBean sb = new StringBean();
                sb.setCollapse(true);
                nodes.visitAllNodesWith(sb);
                if (sb.getStrings() != null) {
                    content += sb.getStrings();

                 //这样,就获取了新闻的内容

                }

}

/*

之后的代码

*/

原创粉丝点击