Python爬虫002浏览器的模拟Header属性

来源：互联网发布：飞狐指标数据输出编辑：程序博客网时间：2024/06/06 21:44

自学笔记002可以使用pycharm直接作为python文件，运行查看author = ‘xiaoj’

’’‘
有的时候，我们无法爬去一些网页，会出现403错误，因为这些网页为了防止别人恶意采集器信息所以进行了一些反爬虫的设置。
那么如果我们想爬取这些网页的信息，该怎么办呢？
————可以设置一些Headers信息，模拟成浏览器去访问这些网址，此时，就能够解决这个问题
’’’
#利用上节课的只是爬取CSDN博客的内容：
import urllib.request

url = “网页链接”
file = urllib.request.urlopen(url)
print(file)
#此时返回结果会报403Forbidden错误,接下来我们讲解两种让爬虫模拟成浏览器访问网页的设置方法

‘’‘
方法1：使用build_opener()修改报头
由于urlopen()不支持一些HTTP的高级功能，所以，我们如果要修改报头，可以使用urllib.request.build_opener()进行
比如：
’’’

url = "网页链接"
header = (“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
opener = urllib.request.build_opener()#创建build_opener操作对象
opener.addheaders = [header]#添加报头信息
data = opener.open(url).read()#接收返回信息，并读取

#此时已经模仿为浏览器去打开，我们保存爬到的信息
fhandle = open(“F:/python/part4/3.html”,“wb”)
a = fhandle.write(data)#print(a)查看写入的字节数
fhandle.close()

‘’‘
方法2：使用add_header()添加报头
除了上述方法，还可以使用urllib.request.Request()下的add_header()实现浏览器的模拟
’’'
import urllib.request
url = "网页链接
req = urllib.request.Request(url)#创建请求对象
req.add_header(“User-Agent”,“Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.84 Safari/537.36”)
data = urllib.request.urlopen(req).read()
data = data.decode(“utf-8”)#转码，将原始的数据以utf-8编码的形式转换出来
print(data)

更多的软件测试视频资料，都在柠檬班的软件测试技术交流群哦~群643368558与群内软测dalao谈笑风生

阅读全文

0 0