简单的提取html中的TextNode
来源:互联网 发布:淘宝达人怎么赚钱 编辑:程序博客网 时间:2024/05/29 08:35
eclipse:导入htmlparser.jar
import org.htmlparser.util.*;
import org.htmlparser.filters.*;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.nodes.TextNode;
import org.htmlparser.util.ParserException;
import org.htmlparser.visitors.TextExtractingVisitor;;
public class HtmlParserExtraction {
public static void main(String[] args) throws ParserException
{
try {
ParseHtmlText("http://www.hzau.edu.cn/2014/ch/", "GB2312");
} catch (ParserException e) {
e.printStackTrace();
}
}
public static void ParseHtmlText(String url, String pageEncoding) throws ParserException
{
Parser parser = new Parser(url); //访问目标网站
parser.setEncoding(pageEncoding); //设置解析编码的格式
TextExtractingVisitor visitor = new TextExtractingVisitor(); //生成文本内容抽取对象
NodeFilter textFilter = new NodeClassFilter(TextNode.class); //生成文本过滤器
NodeList nodes = parser.extractAllNodesThatMatch(textFilter); //利用文本过滤解析文档
for (int i = 0; i < nodes.size(); i++) {
TextNode textNode = (TextNode) nodes.elementAt(i); //获取文本结点
String line = textNode.toPlainTextString().trim(); //转换成纯文本
if(line.equals("")) continue;
System.out.println(line);
}
parser.visitAllNodesWith(visitor); //访问网页所有的结点
System.out.println(visitor.getExtractedText());
}
}
- 简单的提取html中的TextNode
- 提取html中的链接
- 简单的将一个html(xml)文本中的img标签(图片)提取出来的方法
- 从HTML中提取正文的简单方法
- 提取HTML中的文本信息
- 提取HTML中的文本信息
- 提取HTML代码中的文字的ASP实现
- 利用正则表达式提取html中的的Email地址
- 提取网页的html
- 黑马程序员------HTML中的简单的操作
- C#提取HTML代码中的文字zt
- C#提取HTML代码中的文字
- C#提取HTML代码中的文字
- 提取Html内容中的所有图片信息
- 如何提取html文档中的文本内容
- 提取HTML中的链接和锚文本
- C#提取HTML代码中的文字
- jsoup 提取 html中的所有链接
- freemarker自定义标签(二)
- uboot编译过程完全分析
- 第04章-VTK基础(2)
- Sqrt(x)
- 熊猫烧香
- 简单的提取html中的TextNode
- Linux下软件的安装与卸载
- linux命令的排列、替换与别名
- 网站系统架构层次总结~
- linux下web端预览SD卡的相关总结
- ThinkPHP add()操作的返回值
- JavaScript isNaN() 函数
- C++数组类模板
- UVa 352 - The Seasonal War