python 爬虫访问网页时候,总是报错404错误
来源:互联网 发布:wps mac免费版 编辑:程序博客网 时间:2024/05/16 15:34
python 爬虫访问网页时候,总是报错404错误
> 如题,可能是因为没有增加header,网站认为你在非法攻击。
可以用如下代码调试
代码块语法遵循标准markdown代码,例如:
import urllib2import jsonpathimport time# get city idrequest_city= urllib2.Request("http://www.xj.10086.cn/support/bussinesshall/")try: response= urllib2.urlopen(request_city, timeout=1000) print response.info() print response.read()except urllib2.HTTPError, e: print e.getcode() print e.reason print e.geturl() print "-------------------------" print e.info() print e.read()运行结果:/usr/bin/python2.7 /home/jason/code/2018-8-29_meizu12/meizu_sell/main_spider.py404Not Foundhttp://www.xj.10086.cn/support/bussinesshall/-------------------------Server: nginx/1.8.1Date: Wed, 30 Aug 2017 17:25:06 GMTContent-Type: text/htmlContent-Length: 1801Connection: closePowered-By-ChinaCache: MISS from 39100013g1Powered-By-ChinaCache: MISS from 39100013fA<!DOCTYPE html PUBLIC '-//W3C//DTD XHTML 1.0 Transitional//EN' 'http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd'><html xmlns='http://www.w3.org/1999/xhtml'><head><meta http-equiv='Content-Type' content='text/html; charset=utf-8' /><title>提示</title><style type='text/css'>* {margin:0px;padding:0px;cursor:default;font-size:12px;font-family:Tahoma;}html, body, .page {width:100%;height:100%;}.page {position:relative;min-width:500px;min-height:270px;display:table;overflow:hidden;}.container {*position:absolute;width:100%;top:50%; left:0px;display:table-cell;vertical-align:middle;}.main {position:relative;top:-50%;margin:0px auto;width:500px;height:270px;}.infobox {position:relative;width:100%;height:100%;}.infobox-shadow {position:absolute;top:8px;left:8px;z-index:1;width:100%;height:100%;background:#000;filter:Alpha(opacity=20);opacity:0.2;}.infobox-texts {position:absolute;top:0;left:0;z-index:1;width:100%;height:100%;background:#FFF;border:1px #444 solid;}.it-title {width:97%;height:32px;line-height:32px;margin:0px auto;font-size:17px;color:#000;font-weight:bold;border-bottom:1px #444 solid;overflow:hidden;}.it-memo {width:97%;height:250px;overflow:auto;line-height:25px;margin:10px auto;color:#444;}.it-memo p {font-size:15px;}</style></head><body><div class='page'><div class='container'><div class='main'><div class='infobox'><div class='infobox-shadow'></div><div class='infobox-texts'><div class='it-title'>请不要使用非法的URL地址访问</div><div class='it-memo'><p style='text-indent:12px;'>最可能的原因是:</p><p style='text-indent:24px;'>• 您正在试图非法攻击。</p><p style='text-indent:24px;'>• 您访问的URL地址不被允许。</p><p style='text-indent:12px;margin-top:15px;'></p></div></div></div></div></div></div></body></html>Process finished with exit code 0
可以知道也,确实是被网页屏蔽了,加上header就行
生成一个脚注1.
- 这里是 脚注 的 内容. ↩
阅读全文
0 0
- python 爬虫访问网页时候,总是报错404错误
- 访问maven项目总是报404
- tomcat下html网页文件名为中文,访问报错,错误为404
- 关于goagent访问网页报403错误。
- python爬虫解决403禁止访问错误
- ie访问网页时,IE总是出现总是出现[Runtime error]这样的错误
- setAdapter的时候,总是报错 空指针异常
- python访问网页返回503错误
- 配置trac 的时候 总是报 mysql 数据库 没有符合的utf8编码 错误
- 网页报错,错误解读
- 我在eclipse中启动Tomcat8.5之后,运行项目下的JSP文件,总是报404错误,但是访问http://localhost:8080/地址却可以正常访问
- 启动服务器的时候后台没有报错,但是通过浏览器访问项目的时候报404
- python安装的时候报SSL连接错误的解决办法
- java httpclient访问某些网页报403错误
- Python网页爬虫
- 网页爬虫(Python)
- [python]网页小爬虫
- Python中的网页爬虫
- 理解AndroidStudio中的build.gradle文件
- 2017南京java常见面试题
- iOS学习笔记-098.彩票13——设置2_UITableViewCell创建
- 循环神经网络(Recurrent Neural Network, RNN)与LSTM
- MySQL使用存储过程插入千万级数据如何提升效率?
- python 爬虫访问网页时候,总是报错404错误
- CS Academy Round #44 A B C D
- MySQL分类汇总(group by...with rollup)统计时,如何显示“总计”字段?
- 环形数组删除问题
- iOS学习笔记-099.彩票14——设置3_UITableViewController基类提取
- nmap学习笔记
- 购物车逻辑
- ABAP系统变量(SY-系统值)
- 《 Effective Java》关于泛型,方法和枚举,注解的建议