URLConnection,HttpURLConnection 使用总结 - 网络爬虫基础版

来源:互联网 发布:联通ssr免流端口 编辑:程序博客网 时间:2024/06/05 06:06
 
 针对JDK中的URLConnection连接Servlet的问题,网上有虽然有所涉及,但是只是说明了某一个或几个问题,是以FAQ的方式来解决的,而且比较零散,现在对这个类的使用就本人在项目中的使用经验做如下总结:
 1:> URL请求的类别:分为二类,GET与POST请求。二者的区别在于:
a:) get请求可以获取静态页面,也可以把参数放在URL字串后面,传递给servlet,
b:) post与get的不同之处在于post的参数不是放在URL字串里面,而是放在http请求的正文内。
 2:> URLConnection的对象问题:URLConnection的对象,如下代码示例:
 
    // 下面的index.jsp由<servlet-mapping>映射到
    // 一个Servlet(com.quantanetwork.getClientDataServlet)
    // 该Servlet的注意点下边会提到URL url = new URL("http:
    //localhost:8080/TestHttpURLConnectionPro/index.jsp");
 URLConnection rulConnection = url.openConnection();
    // 此处的urlConnection对象实际上是根据URL的


    // 请求协议(此处是http)生成的URLConnection类


    // 的子类HttpURLConnection,故此处最好将其转化


    // 为HttpURLConnection类型的对象,以便用到


    // HttpURLConnection更多的API.如下:
 HttpURLConnection httpUrlConnection = (HttpURLConnection) rulConnection;
 3:> HttpURLConnection对象参数问题
    // 设置是否向httpUrlConnection输出,因为这个是post请求,参数要放在
    // http正文内,因此需要设为true, 默认情况下是false;httpUrlConnection.setDoOutput(true);
 
    // 设置是否从httpUrlConnection读入,默认情况下是true;httpUrlConnection.setDoInput(true);
 
    // Post 请求不能使用缓存httpUrlConnection.setUseCaches(false);
 
    // 设定传送的内容类型是可序列化的java对象
    // (如果不设此项,在传送序列化对象时,当WEB服务默认的不是这种类型时可能抛java.io.EOFException)httpUrlConnection.setRequestProperty("Content-type", "application/x-java-serialized-object");
 
    // 设定请求的方法为"POST",默认是GEThttpUrlConnection.setRequestMethod("POST");
 
    // 连接,从上述第2条中url.openConnection()至此的配置必须要在connect之前完成,
  httpUrlConnection.connect();
 4:> HttpURLConnection连接问题:
 
    // 此处getOutputStream会隐含的进行connect(即:如同调用上面的connect()方法,
    // 所以在开发中不调用上述的connect()也可以)。OutputStream outStrm = httpUrlConnection.getOutputStream();
 5:> HttpURLConnection写数据与发送数据问题:
    // 现在通过输出流对象构建对象输出流对象,以实现输出可序列化的对象。ObjectOutputStream objOutputStrm = new ObjectOutputStream(outStrm);
 
    // 向对象输出流写出数据,这些数据将存到内存缓冲区中objOutputStrm.writeObject(new String("我是测试数据"));
 
    // 刷新对象输出流,将任何字节都写入潜在的流中(些处为ObjectOutputStream)objOutputStm.flush();
 
    // 关闭流对象。此时,不能再向对象输出流写入任何数据,先前写入的数据存在于内存缓冲区中,
    // 在调用下边的getInputStream()函数时才把准备好的http请求正式发送到服务器objOutputStm.close();
 
    // 调用HttpURLConnection连接对象的getInputStream()函数,
    // 将内存缓冲区中封装好的完整的HTTP请求电文发送到服务端。InputStream inStrm = httpConn.getInputStream();
    // <===注意,实际发送请求的代码段就在这里
 
    // 上边的httpConn.getInputStream()方法已调用,本次HTTP请求已结束,下边向对象输出流的输出已无意义,
    // 既使对象输出流没有调用close()方法,下边的操作也不会向对象输出流写入任何数据.
    // 因此,要重新发送数据时需要重新创建连接、重新设参数、重新创建流对象、重新写数据、
    // 重新发送数据(至于是否不用重新这些操作需要再研究)objOutputStm.writeObject(new String(""));httpConn.getInputStream();总结:a:) HttpURLConnection的connect()函数,实际上只是建立了一个与服务器的tcp连接,并没有实际发送http请求。
无论是post还是get,http请求实际上直到HttpURLConnection的getInputStream()这个函数里面才正式发送出去。
 b:) 在用POST方式发送URL请求时,URL请求参数的设定顺序是重中之重,
对connection对象的一切配置(那一堆set函数)
都必须要在connect()函数执行之前完成。而对outputStream的写操作,又必须要在inputStream的读操作之前。
这些顺序实际上是由http请求的格式决定的。
如果inputStream读操作在outputStream的写操作之前,会抛出例外:
java.net.ProtocolException: Cannot write output after reading input.......

  c:) http请求实际上由两部分组成,
一个是http头,所有关于此次http请求的配置都在http头里面定义,

 一个是正文content。
connect()函数会根据HttpURLConnection对象的配置值生成http头部信息,因此在调用connect函数之前,
就必须把所有的配置准备好。
 d:) 在http头后面紧跟着的是http请求的正文,正文的内容是通过outputStream流写入的,
实际上outputStream不是一个网络流,充其量是个字符串流,往里面写入的东西不会立即发送到网络,
而是存在于内存缓冲区中,待outputStream流关闭时,根据输入的内容生成http正文。
至此,http请求的东西已经全部准备就绪。在getInputStream()函数调用的时候,就会把准备好的http请求
正式发送到服务器了,然后返回一个输入流,用于读取服务器对于此次http请求的返回信息。由于http
请求在getInputStream的时候已经发送出去了(包括http头和正文),因此在getInputStream()函数
之后对connection对象进行设置(对http头的信息进行修改)或者写入outputStream(对正文进行修改)
都是没有意义的了,执行这些操作会导致异常的发生。
 6:> Servlet端的开发注意点:
    a:) 对于客户端发送的POST类型的HTTP请求,Servlet必须实现doPost方法,而不能用doGet方法。
    b:) 用HttpServletRequest的getInputStream()方法取得InputStream的对象,比如:
 InputStream inStream = httpRequest.getInputStream();
 现在调用inStream.available()(该方法用于“返回此输入流下一个方法调用可以不受阻塞地
 从此输入流读取(或跳过)的估计字节数”)时,永远都反回0。试图使用此方法的返回值分配缓冲区,
 以保存此流所有数据的做法是不正确的。那么,现在的解决办法是
 Servlet这一端用如下实现:
 InputStream inStream = httpRequest.getInputStream();
 ObjectInputStream objInStream = new ObjectInputStream(inStream);
 Object obj = objInStream.readObject();
 
    // 做后续的处理
 
    // 。。。。。。
 
    // 。。。 。。。
 而客户端,无论是否发送实际数据都要写入一个对象(那怕这个对象不用),如:
 ObjectOutputStream objOutputStrm = new ObjectOutputStream(outStrm);
 objOutputStrm.writeObject(new String(""));
    // 这里发送一个空数据
 
    // 甚至可以发一个null对象,服务端取到后再做判断处理。
 objOutputStrm.writeObject(null);
 objOutputStrm.flush();
 objOutputStrm.close();
 注意:上述在创建对象输出流ObjectOutputStream时,如果将从HttpServletRequest取得的输入流
(即:new ObjectOutputStream(outStrm)中的outStrm)包装在BufferedOutputStream流里面,
则必须有objOutputStrm.flush();这一句,以便将流信息刷入缓冲输出流.如下:
ObjectOutputStream objOutputStrm = new ObjectOutputStream(new BufferedOutputStream(outStrm));
objOutputStrm.writeObject(null);
objOutputStrm.flush();
    // <======此处必须要有.
objOutputStrm.close();


原创粉丝点击