Python爬虫的post请求简单实例

来源：互联网发布：mac解压zip文件的软件编辑：程序博客网时间：2024/06/06 08:38

登陆网页注册时用Python进行post请求，代码

首先查看页面源代码，注意form表单部分，哪里是需要递交的表单信息

运行代码

import urllib.requestimport urllib.parseurl='http://www.iqianyue.com/mypost'postdata=urllib.parse.urlencode({'name':'chenkehk','pass':'316107'}).encode('utf-8')#用字典保存索要注册的信息并用urlencode编码，使用encode（）设置utf-8编码格式r=urllib.request.Request(url,postdata)r.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36')#模仿浏览器爬取，添加包头信息data=urllib.request.urlopen(r).read()f=open('D:/AuI18N/1.html','wb')f.write(data)f.close()

成功爬取网页并自动递交表单信息，完成post请求

关于代理服务器的设置

可以到http://www.xicidaili.com/这个地方找

代码：

import urllib.requestimport urllib.parsedef u(p_add,url):    p=urllib.request.ProxyHandler({'http':p_add})#设置代理服务器信息，    openr=urllib.request.build_opener(p,urllib.request.HTTPSHandler)#构造一个对象，参数是代理信息和urllib.request.HTTPSHandler类    urllib.request.install_opener(openr)#创建全局默认的openrd对象    data=urllib.request.urlopen(url).read().decode('utf-8')#打开网址，爬取内容    return datap_add='111.155.116.240:8123'data=u(p_add,'http://www.baidu.com')print(len(data))
Debuglog日志，在爬取网页的同时打印调试日志，代码：import urllib.requestimport urllib.parsehttphd=urllib.request.HTTPHandler(debuglevel=1)httpshd=urllib.request.HTTPSHandler(debuglevel=1)openr=urllib.request.build_opener(httphd,httpshd)urllib.request.install_opener(openr)data=urllib.request.urlopen('http://edu.51cto.com')

如何查找登陆界面的，用户名密码字段，以下为例
在构造表单是可以建一个字典
{
"username":"chenkehao"
"password":"1111"
}
然后递交表单即可

阅读全文

0 0