Python爬虫的post请求简单实例

来源:互联网 发布:mac解压zip文件的软件 编辑:程序博客网 时间:2024/06/06 08:38

登陆网页注册时用Python进行post请求,代码

首先查看页面源代码,注意form表单部分,哪里是需要递交的表单信息


运行代码

import urllib.requestimport urllib.parseurl='http://www.iqianyue.com/mypost'postdata=urllib.parse.urlencode({'name':'chenkehk','pass':'316107'}).encode('utf-8')#用字典保存索要注册的信息并用urlencode编码,使用encode()设置utf-8编码格式r=urllib.request.Request(url,postdata)r.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')#模仿浏览器爬取,添加包头信息data=urllib.request.urlopen(r).read()f=open('D:/AuI18N/1.html','wb')f.write(data)f.close()
成功爬取网页并自动递交表单信息,完成post请求
关于代理服务器的设置
可以到http://www.xicidaili.com/这个地方找
代码:
import urllib.requestimport urllib.parsedef u(p_add,url):    p=urllib.request.ProxyHandler({'http':p_add})#设置代理服务器信息,    openr=urllib.request.build_opener(p,urllib.request.HTTPSHandler)#构造一个对象,参数是代理信息和urllib.request.HTTPSHandler类    urllib.request.install_opener(openr)#创建全局默认的openrd对象    data=urllib.request.urlopen(url).read().decode('utf-8')#打开网址,爬取内容    return datap_add='111.155.116.240:8123'data=u(p_add,'http://www.baidu.com')print(len(data))
Debuglog日志,在爬取网页的同时打印调试日志,代码:
import urllib.requestimport urllib.parsehttphd=urllib.request.HTTPHandler(debuglevel=1)httpshd=urllib.request.HTTPSHandler(debuglevel=1)openr=urllib.request.build_opener(httphd,httpshd)urllib.request.install_opener(openr)data=urllib.request.urlopen('http://edu.51cto.com')

如何查找登陆界面的,用户名密码字段,以下为例
在构造表单是可以建一个字典
{
"username":"chenkehao"
"password":"1111"
}
然后递交表单即可

 
原创粉丝点击