web service 截取网页内容

来源：互联网发布：食品伙伴网数据库编辑：程序博客网时间：2024/06/05 10:15

有时为了后台节省，或者想调用已有网页内容，就要抓取html。好了不多说，代码如下：

public void getHtm(HttpServletRequest request) throws IOException{URL urlmy = new URL("http://www.baizhu.cc/");HttpURLConnection con = (HttpURLConnection) urlmy.openConnection();HttpURLConnection.setFollowRedirects(true);con.setInstanceFollowRedirects(false);con.connect();BufferedReader br = new BufferedReader(new InputStreamReader(con.getInputStream(), "UTF-8"));String s = "";StringBuffer sb = new StringBuffer();while ((s = br.readLine()) != null) {sb.append(s + "\r\n");//是为了主函数可以输出换行，web上可以把\r\n去掉}String f = sb.toString();int starts = f.indexOf("<body>");//截取网站中的body内容int ends   = f.indexOf("</body>") ;String body = f.substring(starts,ends+7);//这个数字可以让</body>不显示 ，其他字符视情况而定，但是这个截取的字符一定要是静态字符request.setAttribute("getHtml", body);}

每个网站不一样，如果需要截取指定的内容，就要查看网页源文件，把需要的内容附近的标记找出来。此例主函数输出为：

<strong>天气实况</strong>：气温：10℃；西南风 2级；湿度：31%

0 0