Python爬虫002浏览器的模拟Header属性
来源:互联网 发布:飞狐 指标数据输出 编辑:程序博客网 时间:2024/06/06 21:44
自学笔记002可以使用pycharm直接作为python文件,运行查看author = ‘xiaoj’
’’‘
有的时候,我们无法爬去一些网页,会出现403错误,因为这些网页为了防止别人恶意采集器信息所以进行了一些反爬虫的设置。
那么如果我们想爬取这些网页的信息,该怎么办呢?
————可以设置一些Headers信息,模拟成浏览器去访问这些网址,此时,就能够解决这个问题
’’’
#利用上节课的只是爬取CSDN博客的内容:
import urllib.request
url = “网页链接”
file = urllib.request.urlopen(url)
print(file)
#此时返回结果会报403Forbidden错误,接下来我们讲解两种让爬虫模拟成浏览器访问网页的设置方法
‘’‘
方法1:使用build_opener()修改报头
由于urlopen()不支持一些HTTP的高级功能,所以,我们如果要修改报头,可以使用urllib.request.build_opener()进行
比如:
’’’
url = "网页链接"
header = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
opener = urllib.request.build_opener()#创建build_opener操作对象
opener.addheaders = [header]#添加报头信息
data = opener.open(url).read()#接收返回信息,并读取
#此时已经模仿为浏览器去打开,我们保存爬到的信息
fhandle = open(“F:/python/part4/3.html”,“wb”)
a = fhandle.write(data)#print(a)查看写入的字节数
fhandle.close()
‘’‘
方法2:使用add_header()添加报头
除了上述方法,还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟
’’'
import urllib.request
url = "网页链接
req = urllib.request.Request(url)#创建请求对象
req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
data = urllib.request.urlopen(req).read()
data = data.decode(“utf-8”)#转码,将原始的数据以utf-8编码的形式转换出来
print(data)
更多的软件测试视频资料,都在柠檬班的软件测试技术交流群哦~群643368558与群内软测dalao谈笑风生
- Python爬虫002浏览器的模拟Header属性
- 02爬虫---浏览器的模拟Headers属性
- python爬虫2之简单模拟浏览器
- python urllib2模拟浏览器请求 爬虫
- Python 爬虫之 selenium 爬虫,模拟浏览器爬取天猫信息
- 考虑模拟浏览器的爬虫设计
- python 针对selenium+phontomjs等模拟浏览器爬虫的反爬技术点
- 用htmlunit模拟浏览器辅助python做页面爬虫
- python爬虫05--添加header
- python爬虫:常用浏览器的useragent
- Python爬虫:常用浏览器的useragent
- Python爬虫:常用浏览器的useragent
- Python爬虫:常用浏览器的useragent
- Python爬虫:常用浏览器的useragent
- python爬虫:常用浏览器的useragent
- Python 网络爬虫--简单的模拟登录
- httpclient模拟浏览器 的属性设置
- python爬虫浏览器伪装
- RACScheduler
- 深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
- 【图解】Eclipse下JRebel6.2.0热部署插件安装、破解及配置【转】
- ListView,GridView万能适配器
- 【CQOI2015】网络吞吐量
- Python爬虫002浏览器的模拟Header属性
- 利用Defraggler整理文件夹的方法
- redis配置详解
- tensorflow tf.group
- POJ 4.6 702 Crossing River
- 如何使用Gilisoft File Lock Pro加密文件和文件夹
- SVN强制限制提交时的注释长度
- 替换空格
- 用Python的函数式编程特性解释Y Combinator(仿JavaScript版)