用jericho jar包来解析HTML页面示例

来源:互联网 发布:2016淘宝卖家避开同款 编辑:程序博客网 时间:2024/06/02 04:24
import net.htmlparser.jericho.Element;
import net.htmlparser.jericho.HTMLElementName;
import net.htmlparser.jericho.Source;


import java.io.File;
import java.io.IOException;


public class HtmlBeanUtil {
     public void parseHtml() {
         String path = "G:\\data\\index.html";
         try {
             Source sc = new Source(new File(path));
             sc.getFirstElement(HTMLElementName.TITLE);
             System.out.println(firstElement.getTextExtractor().toString());
             System.out.println(sc.getTextExtractor().toString());
         } catch (IOException e) {
             e.printStackTrace();
         }
    }
}