关于使用httpclient类库写的爬虫抓取网页时返回403错误
来源:互联网 发布:网络系统威胁 网络传输 编辑:程序博客网 时间:2024/05/21 00:17
http头的设置很重要,可以骗过某些服务器认为是在和浏览器打交道,而避免被拒绝访问的可能:
若像下面这样,不对头进行任何设置,有些网站在用浏览器可以访问,而用爬虫抓时就会返回403错误:
CloseableHttpClient httpclient = HttpClients.createDefault();
HttpGet httpget = new HttpGet(myURL);
CloseableHttpResponse response = httpclient.execute(httpget);
System.out.println(response.getStatusLine().getStatusCode()); //403错误
所以应该对头进行如下的设置:
httpget.addHeader("Accept", "text/html");
httpget.addHeader("Accept-Charset", "utf-8");
httpget.addHeader("Accept-Encoding", "gzip");
httpget.addHeader("Accept-Language", "en-US,en");
httpget.addHeader("User-Agent", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.22 (KHTML, like Gecko) Chrome/25.0.1364.160 Safari/537.22");
header参考:http://kb.cnblogs.com/page/92320/
- 关于使用httpclient类库写的爬虫抓取网页时返回403错误
- HttpClient抓取网页返回乱码的解决办法
- 网页爬虫,HttpClient+Jericho HTML Parser 实现网页的抓取
- 网络爬虫框架的搭建以及使用HttpClient抓取解析网页的详细步骤
- 关于爬虫网页抓取
- 网络爬虫--如何抓取html页面和httpClient的使用
- 使用HttpClient远程抓取网页内容
- 使用HttpClient远程抓取网页内容
- 使用HttpClient远程抓取网页内容
- Python爬虫使用代理proxy抓取网页
- JAVA使用爬虫抓取网站网页内容
- httpclient 网页抓取 几个问题
- HTTPCLIENT抓取网页内容
- HttpClient抓取网页
- HttpClient 抓取网页
- httpclient学习抓取网页
- 使用HttpClient实现一个简单爬虫,抓取煎蛋妹子图
- 抓取Foursquare网页信息的爬虫
- SPI,UART,I2C都有什么区别,及其各自的特点
- ScrollView嵌套ExpandableListView显示不正常的问题
- 二叉树层序前序中序后序遍历,深度
- 关于String s = new String("xyz")创建几个对象
- IT知识的重要性
- 关于使用httpclient类库写的爬虫抓取网页时返回403错误
- sicily1201 01000001
- 八皇后问题
- struts2的json-default和struts-default的区别
- opengl中glblendfunc用法
- IndentationError:expected an indented block错误解读
- Codeforces Round #274 (Div. 2) C. Exams
- addPosition方法的源码
- 互联网是一个很好的工具