使用htmlparser抓取网页链接
来源:互联网 发布:备份软件哪个好 编辑:程序博客网 时间:2024/04/29 13:12
package chapter9;import java.io.*;import org.htmlparser.util.*;import org.htmlparser.Parser;import org.htmlparser.filters.*;import org.htmlparser.tags.LinkTag;import org.htmlparser.util.ParserException;/** 使用htmlparser抓取网页链接 */public class RadarSpecialSearchEngine {public static void main(String[] args) throws ParserException {try {TravelWordTable("D:\\workshop\\docs\\wordlist.txt");} catch (Exception e) {e.printStackTrace();}}public static void TravelWordTable(String filename) throws IOException {try {String buffer;FileWriter resultFile = null;PrintWriter myFile = null;String dstfile = filename + "_dsturl.txt";File writefile = new File(dstfile);if (!writefile.exists()) {writefile.createNewFile();}resultFile = new FileWriter(writefile);myFile = new PrintWriter(resultFile);BufferedReader reader = new BufferedReader(new FileReader(filename));while ((buffer = reader.readLine()) != null) {String url = "http://www.baidu.com/s?lm=0&si=&rn=10&ie=gb2312&ct=0&wd="+ buffer + "&pn=0&ver=0&cl=3";getBaiduUrls(url, "GB2312", myFile);}if (myFile != null)myFile.close();if (resultFile != null)resultFile.close();} catch (ParserException e) {e.printStackTrace();}}public static void getBaiduUrls(String url, String pageEncoding,PrintWriter writer) throws ParserException {NodeList nodeList = null;try {Parser parser = new Parser(url);parser.setEncoding(pageEncoding); // 设置解析编码格式// Baidu 检索结果的url连接和标题nodeList = parser.parse(new AndFilter(new HasAttributeFilter("target"), new HasAttributeFilter("href")));} catch (ParserException e) {e.printStackTrace();}if (nodeList != null && nodeList.size() > 0) { // 循环遍历每个Url节点for (int i = 0; i < nodeList.size(); i++) {String urlLink = ((LinkTag) nodeList.elementAt(i)).extractLink();String LinkName = ((LinkTag) nodeList.elementAt(i)).getLinkText();if (urlLink.indexOf("bnu") == 0 || urlLink.indexOf("http") == 0)System.out.println("结果 " + i + " 标题:" + LinkName);System.out.println(" 链接:" + urlLink);writer.println(urlLink);}}}}
0 0
- 使用htmlparser抓取网页链接
- 网页信息抓取利器HTMLParser的使用
- HtmlParser技术:网页抓取
- lucene-使用htmlparser提取网页特定链接
- LUCENE-使用htmlparser提取网页所有链接
- lucene-使用htmlparser提取网页普通链接
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- 使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies .
- 利用htmlparser抓取网页内容
- 网页信息抓取(Java htmlparser)
- Java抓取网页 解析网页HtmlParser
- 使用htmlparser下载网页中链接的所有文件
- 黄聪:使用Python中的HTMLParser、cookielib抓取和解析网页、从HTML文档中提取链接、图像、文本、Cookies(二)
- htmlParser解析网页链接问题
- 通过HtmlParser+Heritrix抓取PCONLINE网页(HtmlParser篇)
- 利用htmlparser抓取网页内容(一)
- htmlparser实现从网页上抓取数据
- log4j.properties配置详解
- 解决 Eclipse+pydev安装配置找不到pydev的问题
- 闲余随笔
- 为加强幼儿园娃娃们的消防安全意识,水江市布溪街道办事处在佳泰家国学幼儿园举行消防应急疏散演练活动
- MySQL存储引擎比较
- 使用htmlparser抓取网页链接
- 自适应网页设计
- 黑马程序员java基础网络编程必须掌握的经典代码
- 【C语言天天练(十八)】字符/字符串输入函数fgetc、fgets、getc、getchar和gets
- 微信公共接口介绍
- MFC中获得各个类的指针/句柄 ID的总结
- 动态规划问题简介-from july
- android--简单的文件创建与读写操作
- 【Jqurey EasyUI+Asp.net】----DataGrid数据绑定,以及增、删、改(SQL)