java解析Internet网页中的内容
来源:互联网 发布:猫会游泳吗 知乎 编辑:程序博客网 时间:2024/06/05 08:44
有很多情况下我们需要获得某个网页上内容,例如:获得一个网页上的所有连接。但一般都是更高级的应用,比如获得一个网页表单需要填写的内容,以及form表单提交的连接,这样我们就可以在自己的网页上获得别人网页上的资源了。现在我们就以最简单的获得一个网页上的所有超链接为例介绍一下java解析网页上内容的基本方法。
主要实现就是使用URL和URLConnection两个类获得网页的流信息,然后使用正则表达式等方法取出自己需要的内容,代码如下:
package URLConnection;import java.io.BufferedReader;import java.io.InputStreamReader;import java.net.URL;import java.net.URLConnection;import java.util.ArrayList;import java.util.List;import java.util.StringTokenizer;public class GetInternet {/** * 获得网页中的超链接 * @author letthinking * @param urlStr url 例如:http://blog.csdn.net/yue19870813?viewmode=list * @return List<String> */public List<String> getInternet(String urlStr){List<String> list = new ArrayList<String>();URL url = null;URLConnection conn = null;String nextLine = null;StringTokenizer tokenizer = null;try{//获得网页资源url = new URL(urlStr);//获得资源连接conn = url.openConnection();conn.connect();BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream()));//开始读取网页信息解析出网页中的超链接while((nextLine = reader.readLine()) != null ){tokenizer = new StringTokenizer(nextLine);while(tokenizer.hasMoreTokens()){String urlToken = tokenizer.nextToken();if(isUrl(urlToken)){list.add(getHttp(urlToken));}}}}catch(Exception e){}return list;}/** * 判断字符串中是否含有超链接 * @author letthinking * @param urlToken * @return */public boolean isUrl(String urlToken){if(urlToken.indexOf("http") != -1){return true;}return false;}/** * 将字符串中超链接提取出来 * @author letthinking * @param urlToken * @return */public String getHttp(String urlToken){int start = urlToken.indexOf("http");int end = urlToken.length();String tempStr = urlToken.substring(start,end);end = tempStr.indexOf("\"");if(end == -1){end = tempStr.length();}return tempStr.substring(0,end);}public static void main(String[] args){GetInternet g = new GetInternet();List<String> list = g.getInternet("http://www.csdn.net/");System.out.println("开始输出超链接"); for(String str:list){System.out.println(str); }//System.out.println(g.getHttp("<link rel=\"stylesheet\" href=\"http://csdnimg.cn/www/css/main_new.css?20110813\" type=\"text/css\" media=\"all\" />"));}}运行后输出超链接,更多高级的应用大家自己拓展吧。
- java解析Internet网页中的内容
- java下载网页中的内容
- 【Java】读取网页中的内容
- Android中如何解析网页,获取网页中的元素内容
- Jsoup解析网页内容
- beautifulsoup 解析网页内容
- 【LibUIDK界面库系列文章】解析网页中的table内容
- Internet Download Manager IDM 如何抓取网页 整个网页内容
- java简单解析XML串中的内容
- java根据 正则表达式解析html网页内容
- htmlparser解析网页内容代码
- 使用python解析网页内容
- JAVA 通过BufferedReader读出网页中的所有内容
- java读取网页内容
- java 获取网页内容
- JAVA 抓取网页内容
- 【JAVA】 抓取网页内容
- JAVA 抓取网页内容
- Http小结
- 上海-苏州 100公里徒步旅行心情分享(二)
- Max Levchin与Peter Thiel谈创新:“一半是海水,一半是火焰”
- 第三周第2天MySQL基础知识(二)
- ubuntu 中firefox 安装Java插件
- java解析Internet网页中的内容
- JDBC(No.11)
- 华为笔试题集锦
- DNN学习(1)
- [usaco]4.2.1 最大流问题Drainage Ditches
- 一种 获得结构体成员的方法
- 【转载】const用法详解,如何修饰变量,返回值以及成员函数
- java中关于数据库连接的获取
- 将对setjmp与longjmp的具体使用方法和适用的场合,进行一个非常全面的阐述。