HttpClient设置代理做网络爬虫
来源:互联网 发布:网络交友诈骗案例 编辑:程序博客网 时间:2024/05/23 01:11
这里需要用到3个jar包:
common-logging.jar:点击下载
commons-codec.jar:点击下载
commons-httpclient.jar:点击下载
将下载好的jar add to buildpath。
由于我是深大学生,就爬取深大内部网了。
import java.io.FileWriter;import org.apache.commons.httpclient.HttpClient;import org.apache.commons.httpclient.HttpStatus;import org.apache.commons.httpclient.UsernamePasswordCredentials;import org.apache.commons.httpclient.auth.AuthScope;import org.apache.commons.httpclient.methods.GetMethod;public class Crawl { public static void crawl() { HttpClient httpClient = new HttpClient(); httpClient.getHostConfiguration().setProxy("proxy.szu.edu.cn", 8080); httpClient.getParams().setAuthenticationPreemptive(true); httpClient.getState().setProxyCredentials(AuthScope.ANY, new UsernamePasswordCredentials("账号", "密码")); String url = "http://192.168.2.229/newkc/djbprint.aspx?xqh=20151&ykch=MC99000201"; GetMethod getMethod = new GetMethod(url); try { int status = httpClient.executeMethod(getMethod); if(status != HttpStatus.SC_OK) { System.out.println("error"); } byte[] responseBody = getMethod.getResponseBody(); String html = new String(responseBody); FileWriter writer = new FileWriter("a.txt"); writer.write(html); writer.close(); } catch (Exception e) { e.printStackTrace(); } }}
0 1
- HttpClient设置代理做网络爬虫
- HttpClient +JSOUP 代理 爬虫
- 使用HttpClient做的一个简单的网络爬虫
- httpClient如何设置代理
- 【Java】设置HttpClient代理
- HttpClient设置代理
- httpClient设置代理
- HttpClient使用详解 网络爬虫
- 用HttpClient实现网络爬虫
- Ending、网络爬虫-HttpClient系列
- 爬虫代理ip设置
- 爬虫代理ip设置
- 爬虫设置代理
- Httpclient通过代理访问网络
- Httpclient通过代理访问网络
- HttpClient设置超时和代理
- httpClient 设置代理请求接口
- httpclient 设置代理 PostMethod 示例
- JavaScript——递归调用使用arguments.callee
- 【leetcode】Power of Three
- 23种设计模式(2):工厂方法模式
- 最大可不连续的子段和(1087)
- 51nod 1174 区间中最大的数
- HttpClient设置代理做网络爬虫
- Linux--字符设备驱动结构框图
- YTU 2720: 删出多余的空格
- C#设计模式——装饰模式
- hdu 2101 A + B Problem Too
- EJB-- EntityManger--整理
- Fedora Notes
- VBS 发邮件
- 对数基础知识