python爬虫之豆瓣图片（二）

来源：互联网发布：js修改css样式编辑：程序博客网时间：2024/05/14 06:57

伪装浏览器

对与一些需要登录的网站，如果不是从六七发出的请求，则得不到响应。所以，我们需要将爬虫程序法出请求伪装成浏览器正规军
具体实现：自定义网页请求报头(详细介绍)

使用Fiddle查看请求和响应报头

打开下载好的工具Fiddler，然后在浏览器访问“https://www.douban.com/”,在Fiddle左侧访问记录中，找到“200 HTTP www.douban.com”这一条，点击查看对应的请求和响应报头的具体内容，截图如下：

访问豆瓣

通过自定义请求报头与上图的Request Headers相同内容：

 import urllib.request #定义保存文件的函数 def saveFile(data): path="E:\\python\\douban.out" f=open(path,'wb') f.write(data) f.colse() #网址 url="https://www.douban.com/" headers={'User-Agent': 'Mozilla/5.0  (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/62.0.3202.62 Safari/537.36'} req=urllib.request.Request(url=url,headers=headers) res=urllib.request.urlopen(req) data=res.read() #把爬去的内容保存到文件中 saveFile(data) data=data.decode('utf-8') #打印出抓取的内容 print(data) #打印各类信息 print(type(res)) print(res.geturl()) print(res.info()) print(res.getcode())

阅读全文

0 0