Crawler学习:2.Download Pages
来源:互联网 发布:刘文元排奇门软件 编辑:程序博客网 时间:2024/05/16 19:05
声明:所有内容均为本人学习《自己动手写网络爬虫》心得,有任何疑问可以参考原文。
1.网页抓取
所谓网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。
类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。
Java 语言是为网络而生的编程语言,它把网络资源看成是一种文件,它对网络资源的访问和对本地文件的访问一样方便。它把请求和响应封装为流。
因此我们可以根据相应内容,获得响应流,之后从流中按字节读取数据。
例如,java.net.URL 类可以对相应的Web服务器发出请求并且获得响应文档。
java.net.URL 类有一个默认的构造函数,使用URL 地址作为参数,构造URL 对象:
URL pageURL = new URL(path);
接着,可以通过获得的URL 对象来取得网络流,进而像操作本地文件一样来操作网络资源:
InputStream stream = pageURL.openStream();
在实际的项目中,网络环境比较复杂,因此,只用java.net 包中的API 来模拟IE 客户端的工作,代码量非常大。
需要处理HTTP 返回的状态码,设置HTTP 代理,处理HTTPS协议等工作。
为了便于应用程序的开发,实际开发时常常使用Apache 的HTTP 客户端开源项目——HttpClient。
它完全能够处理HTTP 连接中的各种问题,使用起来非常方便。
只需在项目中引入HttpClient.jar(3.0版本) 包,就可以模拟IE 来获取网页内容。例如:
//创建一个客户端,类似于打开一个浏览器HttpClient httpclient=new HttpClient();//创建一个get 方法,类似于在浏览器地址栏中输入一个地址GetMethod getMethod=new GetMethod("http://www.blablabla.com");//回车,获得响应状态码int statusCode=httpclient.executeMethod(getMethod);//查看命中情况,可以获得的东西还有很多,比如head、cookies 等System.out.println("response=" + getMethod.getResponseBodyAsString());//释放getMethod.releaseConnection();
2.传参数方法:Get和Post
Get 请求方式把需要传递给服务器的参数作为URL 的一部分传递给服务器。
但是,HTTP 协议本身对URL 字符串长度有所限制。因此不能传递过多的参数给服务器。
为了避免这种问题,通常情况下,采用Post 方法进行Http请求,HttpClient 包对post 方法也有很好的支持。例如:
/得到post 方法PostMethod PostMethod = new PostMethod("http://www.saybot.com/postme");//使用数组来传递参数NameValuePair[] postData = new NameValuePair[2];//设置参数postData[0] = new NameValuePair("武器", "枪");postData[1] = new NameValuePair("什么枪", "神枪");postMethod.addParameters(postData);//回车,获得响应状态码int statusCode=httpclient.executeMethod(getMethod);//查看命中情况,可以获得的东西还有很多,比如head、cookies 等System.out.println("response=" + getMethod.getResponseBodyAsString());//释放getMethod.releaseConnection();上面的例子说明了如何使用post 方法来访问Web 资源。与Get 方法不同,Post 方法可以使用NameValuePair 来设置参数,因此可以设置“无限”多的参数。
3.处理Http状态码
HttpClient 访问Web 资源的时候,涉及Http状态码。比如:
int statusCode=httpClient.executeMethod(getMethod);//回车,获得响应状态码
Http 状态码表示Http协议所返回的响应的状态。
比如客户端向服务器发送请求,如果成功地获得请求的资源,则返回的状态码为200,表示响应成功。
如果请求的资源不存在,则通常返回404 错误。
这里只简单处理了状态码为200的响应,其他状态码则都丢弃。
// 判断访问的状态码if ( statusCode != HttpStatus.SC_OK ) { System.err.println("Method failed: " + getMethod.getStatusLine()); filePath = null;}
4.实现Download Pages
主要包含三个函数:
1.String getFileNameByUrl(String url,String contentType); // 过滤URL中的非法字符,得到保存文件名。
2. void saveToLocal(byte[] data, String filePath); // 保存网络字节数组到本地文件。
3.String downloadFile(String url); // 下载URL指向的网页。
package chici.util;import java.io.DataOutputStream;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.HttpException;import org.apache.commons.httpclient.HttpStatus;import org.apache.commons.httpclient.methods.GetMethod;import org.apache.commons.httpclient.params.HttpMethodParams;public class DownloadFile {/** * 根据URL和网页类型生成需要保存的网页的文件名,去除URL中的非文件名字符 * */public String getFileNameByUrl(String url,String contentType){// 移除httpurl = url.substring(7);// text/html类型if( contentType.indexOf("html")!=-1 ){return url.replaceAll("[\\?/:*|<>\"]","_") +".html";}// 如application/pdf类型else{return url.replaceAll("[\\?/:*|<>\"]","_") +"."+contentType.substring(contentType.lastIndexOf("/")+1);}}/** *保存网页字节数组到本地文件,filePath为要保存的文件的相对地址 * */private void saveToLocal(byte[] data, String filePath) {try {DataOutputStream out = new DataOutputStream( new FileOutputStream( new File(filePath) ) );for (int i = 0; i < data.length; i++)out.write(data[i]);out.flush();out.close();} catch (IOException e) {e.printStackTrace();}} /** * 下载URL指向的网页 * */public String downloadFile(String url) {String filePath = null;// 1.生成HttpClient 对象并设置参数HttpClient httpClient = new HttpClient();// 设置HTTP 连接超时5shttpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000);// 2.生成GetMethod 对象并设置参数GetMethod getMethod = new GetMethod(url);// 设置get 请求超时5sgetMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);// 设置请求重试处理getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler());// 3.执行HTTP GET 请求try {int statusCode = httpClient.executeMethod(getMethod);// 判断访问的状态码if ( statusCode != HttpStatus.SC_OK ) {System.err.println("Method failed: " + getMethod.getStatusLine());filePath = null;}// 4.处理HTTP 响应内容byte[] responseBody = getMethod.getResponseBody();// 读取为字节数组// 根据网页url 生成保存时的文件名filePath = "E:\\chici\\"+ getFileNameByUrl(url, getMethod.getResponseHeader("Content-Type").getValue());saveToLocal(responseBody, filePath);} catch (HttpException e) {// 发生致命的异常,可能是协议不对或者返回的内容有问题System.out.println("Please check your provided http address!");e.printStackTrace();} catch (IOException e) {// 发生网络异常e.printStackTrace();} finally {// 释放连接getMethod.releaseConnection();}return filePath;}}
- Crawler学习:2.Download Pages
- Crawler学习:3.Crawler Design
- Crawler学习:1.Overview of Crawler
- Crawler
- Crawler学习:4.Improve Performance
- 网站爬虫web crawler学习笔记二
- android download学习记录
- android download学习记录
- android download学习记录
- Gem5学习03-Download
- ASP.NET---Web Pages学习
- 深入学习heritrix---体系结构(Overview of the crawler)
- 深入学习heritrix---体系结构(Overview of the crawler)
- 学习一下golang 练习70 web crawler (网络爬虫)
- 深入学习heritrix---体系结构(Overview of the crawler)
- Ten ways to speed up the download time of your web pages
- Index of /download/英语学习/
- NSURLSession学习笔记(DownLoad Task)
- 黑马程序员——java之集合框架(Day14)
- Java 判断字符串是否为空的3种方法
- 第一个Objective-C程序——Hello World!
- 网络基础知识
- 每天进步一点点---------JS之for循环列出52张牌
- Crawler学习:2.Download Pages
- cookie sesssion 机制
- 【Leetcode】Sqrt(x)
- (18)谁动了你的数据库?
- 嵌入式 VM中linux与windows共享文件夹解决方案总结
- access
- MVC开发模式
- 《C++代码培训》笔记
- 有相同的数字吗?