python爬虫登录豆瓣（一）

来源：互联网发布：kettle 调用java代码编辑：程序博客网时间：2024/05/24 06:22

使用第三方库 requests
通过使用 chrome 浏览器抓包，可以得到这个请求，将其中的 headers 和 data 提交。最后输出到 douban.html 的文件中，即可查看登录的界面。这次请求是第一次登录，所有界面为提示修改个人信息。
豆瓣抓包

import requestsurl = "https://accounts.douban.com/login"# 将账号和密码改为自己的帐号和密码data = {"source": "None", \        "redir": "https://www.douban.com",\         "form_email": "帐号", \         "form_password": "密码",\         "login": "登录"}headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36",\            "Accept": "text/html,application/xhtml+xml, application/xml;q=0.9",\            "Host": "accounts.douban.com", \            "Referer": "https://accounts.douban.com/login"}r = requests.post(url, data=data, headers=headers)with open("douban_login.html", "w") as f:    print(r.text.encode("utf-8"), file=f)    # 将网页源代码转化为 utf-8 输出

也可根据相同的原理使用程序修改个人信息。
最后有一个小问题，网页源代码 meta 标签显示编码方式为 utf-8，最后也将字符转化为 utf-8 输出，但保存在本地之后再用浏览器打开却是乱码，将编码方式改为 bg2312 之后就能正常观看，不知道什么原因，求指教 (^o^)／

0 0