web service 截取网页内容

来源:互联网 发布:食品伙伴网数据库 编辑:程序博客网 时间:2024/06/05 10:15
有时为了后台节省,或者想调用已有网页内容 ,就要抓取html。好了 不多说,代码如下:
public void getHtm(HttpServletRequest request) throws IOException{URL urlmy = new URL("http://www.baizhu.cc/");HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();HttpURLConnection.setFollowRedirects(true);con.setInstanceFollowRedirects(false);con.connect();BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(), "UTF-8"));String s = "";StringBuffer sb = new StringBuffer();while ((s = br.readLine()) != null) {sb.append(s + "\r\n");//是为了主函数可以输出换行,web上可以把\r\n去掉}String f = sb.toString();int starts = f.indexOf("<body>");//截取网站中的body内容int ends   = f.indexOf("</body>") ;String body = f.substring(starts,ends+7);//这个数字可以让</body>不显示 ,其他字符视情况而定,但是这个截取的字符一定要是静态字符request.setAttribute("getHtml", body);}

每个网站不一样,如果需要截取指定的内容,就要查看网页源文件,把需要的内容附近的标记找出来。此例主函数输出为:

<strong>天气实况</strong>:气温:10℃;西南风 2级;湿度:31%

0 0
原创粉丝点击