htmlParser解析网页链接问题
来源:互联网 发布:windows重命名快捷键 编辑:程序博客网 时间:2024/05/18 17:02
本人在使用htmlparser去分析网站的时候,发现有好多网页不能正确提取其中的链接,不知道怎么回事啊。求指导~~谢谢。
package com.susheng.MoneyMaker.DataExtract;import org.htmlparser.Node;import org.htmlparser.NodeFilter;import org.htmlparser.Parser;import org.htmlparser.tags.LinkTag;import org.htmlparser.util.NodeList;import com.susheng.MoneyMaker.Util.WebEncoding;public class LinkExtract{static String LinkURL = "";public static String getLink(String strURL) throws Exception{WebEncoding web = new WebEncoding();String Character = web.getCharset(strURL);Parser parser = new Parser(strURL);parser.setEncoding(Character);NodeList nodeList = parser.extractAllNodesThatMatch(new NodeFilter(){// 实现该方法,用以过滤标签public boolean accept(Node node){if (node instanceof LinkTag)// 标记return true;return false;}});// 打印if (nodeList.size() == 0){LinkURL = null;System.out.println("页面不存在链接");} elsefor (int i = 0; i < nodeList.size(); i++){String TextTemp;LinkTag n = (LinkTag) nodeList.elementAt(i);TextTemp = n.getStringText();System.out.println(TextTemp);// if(TextTemp.contains(""))if (TextTemp.contains("联系我们")){System.out.print(TextTemp + " ==>> ");LinkURL = n.extractLink();} else if (TextTemp.contains("联系方式")){System.out.print(TextTemp + " ==>> ");LinkURL = n.extractLink();}else if(TextTemp.contains("联系")){System.out.print(TextTemp + " ==>> ");LinkURL = n.extractLink();}}return LinkURL;}public static void main(String[] args) throws Exception{System.out.println(getLink("http://www.4006601002.com/"));}}
程序源代码如上。运行结果是只有一个链接。页面中明明存在联系方式,但是却找不到。求原因~不胜感激。
- htmlParser解析网页链接问题
- 解析网页工具HTMLParser
- 学习HTMLParser解析网页
- 使用htmlparser抓取网页链接
- 使用HtmlParser 解析链接节点
- htmlparser lexer解析网页源代码
- htmlparser lexer解析网页源代码
- htmlparser解析网页基本代码
- htmlparser解析网页内容代码
- HTMLParser解析网页,提取链接地址、标题名称,并插入数据库
- Java抓取网页 解析网页HtmlParser
- lucene-使用htmlparser提取网页特定链接
- LUCENE-使用htmlparser提取网页所有链接
- lucene-使用htmlparser提取网页普通链接
- python使用HTMLParser和BeautifulSoup解析网页
- httpclient解析网页,htmlparser获取制定元素
- HTMLParser半自动解析网页的应用
- 基于htmlparser实现网页内容解析
- 最近有点混乱
- 程序员阿士顿的故事
- 错排公式
- JNDI不会离我们太远
- android 地图服务开发 INSTALL_FAILED_MISSING_SHARED_LIBRARY 错误解决
- htmlParser解析网页链接问题
- 第四届中兴通讯——中兴捧月任务
- vlc的应用之十一:修改vlc的界面文字
- cvCvtColor的用法
- getrlimit和setrlimit函数
- 我一定要找到它FreeEIM
- 相信冬天已来FreeEIM
- Linux设备模型(1)
- S3C6410 ddr init