Java发送Http请求，解析html返回

来源：互联网发布：华中科技大学绩点算法编辑：程序博客网时间：2024/05/01 04:37

Java发送Http请求，解析html返回

2011-06-07 14:33:41| 分类：●开发-Java | 标签：java htmlparser import url http请求 |字号大中小订阅

今天是2008年7月7日星期一，下午一直在学校做个人开始页面。因为离不开google的翻译，所以想把google的翻译整合到我的开始页面中来，于是乎就遇到了一个问题，怎样使用java程序发送http请求然后截获远程服务器返回的数据进行适当处理之后再输出？另外，google的翻译页面是使用post的方法提交数据的，无法直接通过网址进行处理，于是乎，这又涉及到了一个怎样使用java去post数据的问题。
经过拜读百度知道的提问（花了我20分），找到了一个htmlparser的jar包组件，据说是可以很高效率的进行html的解析。于是乎，立马下载了一个过来。（文后附件中有）试了一下果然不错。同时，在这个过程中也学会了怎样利用java来和其它网站交互，这可是一个非常不错的功能，配合htmlparser，可以随心所欲的截取别人网站的信息了！
废话不多说了，下面是具体的使用步骤。

首先，向一个Web站点发送POST请求只需要简单的几步:
注意，这里不需要导入任何第三方包

Java代码：

view plaincopy to clipboardprint?
package com.test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class TestPost {

    public static void testPost() throws IOException {

        /**
         * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如： // Using
         * java.net.URL and //java.net.URLConnection
         */
        URL url = new URL("http://www.faircanton.com/message/check.asp");
        URLConnection connection = url.openConnection();
        /**
         * 然后把连接设为输出模式。URLConnection通常作为输入来使用，比如下载一个Web页。
         * 通过把URLConnection设为输出，你可以把数据向你个Web页传送。下面是如何做：
         */
        connection.setDoOutput(true);
        /**
         * 最后，为了得到OutputStream，简单起见，把它约束在Writer并且放入POST信息中，例如： ...
         */
        OutputStreamWriter out = new OutputStreamWriter(connection
                .getOutputStream(), "8859_1");
        out.write("username=kevin&password=*********"); //post的关键所在！
        // remember to clean up
        out.flush();
        out.close();
        /**
         * 这样就可以发送一个看起来象这样的POST：
         * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:
         * text/plain Content-type: application/x-www-form-urlencoded
         * Content-length: 99 username=bob password=someword
         */
        // 一旦发送成功，用以下方法就可以得到服务器的回应：
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        InputStream l_urlStream;
        l_urlStream = connection.getInputStream();
        // 传说中的三层包装阿！
        BufferedReader l_reader = new BufferedReader(new InputStreamReader(
                l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
            sTotalString += sCurrentLine + "\r\n";

        }
        System.out.println(sTotalString);
    }

    public static void main(String[] args) throws IOException {

        testPost();

    }

}
package com.test;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.net.URL;
import java.net.URLConnection;

public class TestPost {

    public static void testPost() throws IOException {

        /**
         * 首先要和URL下的URLConnection对话。 URLConnection可以很容易的从URL得到。比如： // Using
         * java.net.URL and //java.net.URLConnection
         */
        URL url = new URL("http://www.faircanton.com/message/check.asp");
        URLConnection connection = url.openConnection();
        /**
         * 然后把连接设为输出模式。URLConnection通常作为输入来使用，比如下载一个Web页。
         * 通过把URLConnection设为输出，你可以把数据向你个Web页传送。下面是如何做：
         */
        connection.setDoOutput(true);
        /**
         * 最后，为了得到OutputStream，简单起见，把它约束在Writer并且放入POST信息中，例如： ...
         */
        OutputStreamWriter out = new OutputStreamWriter(connection
                .getOutputStream(), "8859_1");
        out.write("username=kevin&password=*********"); //post的关键所在！
        // remember to clean up
        out.flush();
        out.close();
        /**
         * 这样就可以发送一个看起来象这样的POST：
         * POST /jobsearch/jobsearch.cgi HTTP 1.0 ACCEPT:
         * text/plain Content-type: application/x-www-form-urlencoded
         * Content-length: 99 username=bob password=someword
         */
        // 一旦发送成功，用以下方法就可以得到服务器的回应：
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        InputStream l_urlStream;
        l_urlStream = connection.getInputStream();
        // 传说中的三层包装阿！
        BufferedReader l_reader = new BufferedReader(new InputStreamReader(
                l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
            sTotalString += sCurrentLine + "\r\n";

        }
        System.out.println(sTotalString);
    }

    public static void main(String[] args) throws IOException {

        testPost();

    }

}

执行的结果：（果真是返回了验证后的html阿！神奇！）
Html代码
view plaincopy to clipboardprint?
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>账户已经冻结</title>
<mce:style type="text/css"></mce:style><style type="text/css" mce_bogus="1">
.temp {
    font-family: Arial, Helvetica, sans-serif;
    font-size: 14px;
    font-weight: bold;
    color: #666666;
    margin: 10px;
    padding: 10px;
    border: 1px solid #999999;
}
.STYLE1 {color: #FF0000}</style>
</head>

<body>
<p> </p>
<p> </p>
<p> </p>
<table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
<tr>
    <td width="135" height="192"><div align="center"><img src="images/err.jpg" mce_src="images/err.jpg" width="54" height="58"></div></td>
    <td width="563"><p><span class="STYLE1">登录失败</span><br>
        <br>
    您的帐户活跃指数低于系统限制，您的帐户已经被暂时冻结。<br>
    请您联系网络主管或者人事主管重新激活您的帐户。</p>
    </td>
</tr>
</table>
<p> </p>
</body>
</html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>账户已经冻结</title>
<mce:style type="text/css"></mce:style><style type="text/css" mce_bogus="1">
.temp {
    font-family: Arial, Helvetica, sans-serif;
    font-size: 14px;
    font-weight: bold;
    color: #666666;
    margin: 10px;
    padding: 10px;
    border: 1px solid #999999;
}
.STYLE1 {color: #FF0000}</style>
</head>

<body>
<p> </p>
<p> </p>
<p> </p>
<table width="700" border="0" align="center" cellpadding="0" cellspacing="0" class="temp">
<tr>
    <td width="135" height="192"><div align="center"><img src="images/err.jpg" mce_src="images/err.jpg" width="54" height="58"></div></td>
    <td width="563"><p><span class="STYLE1">登录失败</span><br>
        <br>
    您的帐户活跃指数低于系统限制，您的帐户已经被暂时冻结。<br>
    请您联系网络主管或者人事主管重新激活您的帐户。</p>
    </td>
</tr>
</table>
<p> </p>
</body>
</html>

一些Web站点用POST形式而不是GET，这是因为POST能够携带更多的数据，而且不用URL，这使得它看起来不那么庞大。使用上面列出的大致的代码，Java代码可以和这些站点轻松的实现对话。

得到html以后，分析内容就显得相对轻松了。现在就可以使用htmlparser了，下面是一个简单的示例程序，过多的解释我就不说了，相信代码能够说明一切的！

Java代码
view plaincopy to clipboardprint?
package com.test;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;

/**
* 标题:利用htmlparser提取网页纯文本的例子
*/
public class TestHTMLParser {
public static void testHtml() {
    try {
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        java.io.InputStream l_urlStream;
        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
        l_connection.connect();
        l_urlStream = l_connection.getInputStream();
        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
          sTotalString += sCurrentLine+"\r\n";
        // System.out.println(sTotalString);
        }
        String testText = extractText(sTotalString);
        System.out.println( testText );

    } catch (Exception e) {
        e.printStackTrace();
    }

}

public static String extractText(String inputHtml) throws Exception {
    StringBuffer text = new StringBuffer();
    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
    // 遍历所有的节点
    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
        public boolean accept(Node node) {
          return true;
        }
    });

    System.out.println(nodes.size()); //打印节点的数量
    for (int i=0;i<nodes.size();i++){
         Node nodet = nodes.elementAt(i);
         //System.out.println(nodet.getText());
        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
    }
    return text.toString();
}

public static void test5(String resource) throws Exception {
    Parser myParser = new Parser(resource);
    myParser.setEncoding("GBK");
    String filterStr = "table";
    NodeFilter filter = new TagNameFilter(filterStr);
    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
    TableTag tabletag = (TableTag) nodeList.elementAt(11);

}

public static void main(String[] args) throws Exception {
    // test5("http://www.ggdig.com");
    testHtml();
}
}
package com.test;

import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.filters.TagNameFilter;
import org.htmlparser.tags.TableTag;
import org.htmlparser.util.NodeList;

/**
* 标题:利用htmlparser提取网页纯文本的例子
*/
public class TestHTMLParser {
public static void testHtml() {
    try {
        String sCurrentLine;
        String sTotalString;
        sCurrentLine = "";
        sTotalString = "";
        java.io.InputStream l_urlStream;
        java.net.URL l_url = new java.net.URL("http://www.ideagrace.com/html/doc/2006/07/04/00929.html");
        java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
        l_connection.connect();
        l_urlStream = l_connection.getInputStream();
        java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));
        while ((sCurrentLine = l_reader.readLine()) != null) {
          sTotalString += sCurrentLine+"\r\n";
        // System.out.println(sTotalString);
        }
        String testText = extractText(sTotalString);
        System.out.println( testText );

    } catch (Exception e) {
        e.printStackTrace();
    }

}

public static String extractText(String inputHtml) throws Exception {
    StringBuffer text = new StringBuffer();
    Parser parser = Parser.createParser(new String(inputHtml.getBytes(),"GBK"), "GBK");
    // 遍历所有的节点
    NodeList nodes = parser.extractAllNodesThatMatch(new NodeFilter() {
        public boolean accept(Node node) {
          return true;
        }
    });

    System.out.println(nodes.size()); //打印节点的数量
    for (int i=0;i<nodes.size();i++){
         Node nodet = nodes.elementAt(i);
         //System.out.println(nodet.getText());
        text.append(new String(nodet.toPlainTextString().getBytes("GBK"))+"\r\n");
    }
    return text.toString();
}

public static void test5(String resource) throws Exception {
    Parser myParser = new Parser(resource);
    myParser.setEncoding("GBK");
    String filterStr = "table";
    NodeFilter filter = new TagNameFilter(filterStr);
    NodeList nodeList = myParser.extractAllNodesThatMatch(filter);
    TableTag tabletag = (TableTag) nodeList.elementAt(11);

}

public static void main(String[] args) throws Exception {
    // test5("http://www.ggdig.com");
    testHtml();
}
}

0 0