python爬虫登录豆瓣(一)

来源:互联网 发布:kettle 调用java代码 编辑:程序博客网 时间:2024/05/24 06:22

使用 第三方库 requests
通过使用 chrome 浏览器抓包,可以得到这个请求,将其中的 headers 和 data 提交。最后输出到 douban.html 的文件中,即可查看登录的界面。这次请求是第一次登录,所有界面为提示修改个人信息。
豆瓣抓包

import requestsurl = "https://accounts.douban.com/login"# 将账号和密码改为自己的帐号和密码data = {"source": "None", \        "redir": "https://www.douban.com",\         "form_email": "帐号", \         "form_password": "密码",\         "login": "登录"}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36",\            "Accept": "text/html,application/xhtml+xml, application/xml;q=0.9",\            "Host": "accounts.douban.com", \            "Referer": "https://accounts.douban.com/login"}r = requests.post(url, data=data, headers=headers)with open("douban_login.html", "w") as f:    print(r.text.encode("utf-8"), file=f)    # 将网页源代码转化为 utf-8 输出 

也可根据相同的原理使用程序修改个人信息。
最后有一个小问题,网页源代码 meta 标签显示编码方式为 utf-8,最后也将字符转化为 utf-8 输出,但保存在本地之后再用浏览器打开却是乱码,将编码方式改为 bg2312 之后就能正常观看,不知道什么原因,求指教 (^o^)/

0 0
原创粉丝点击