Python网页抓取、模拟登录
来源:互联网 发布:云计算运维面试题 编辑:程序博客网 时间:2024/04/28 18:03
From: http://www.cnblogs.com/bboy/archive/2010/10/29/1864537.html
用python抓取网页是非常简单的事,简单的几行代码就可以解决。。。这里稍微记录一下
需要引用的包有主要是 urllib2,urllib也可以引入,具体 看代码
#-------------------------------------------------------------------------------
# Name: 模拟登录web
# Purpose:
#
# Author: huwei
#
# Created: 26/10/2010
# Copyright: (c) huwei 2010
# Licence: <your licence>
#-------------------------------------------------------------------------------
#!/usr/bin/env python
import time,urllib2,urllib
def main():
#登录博客园
loginCNblogs()
pass
#登录博客园
def loginCNblogs():
try:
#设置 cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
parms = {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",
"__VIEWSTATE":"/wEPDwULLTExMDE0MzIzNDRkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcmcJekJlt5rFwfnjeMMnX9V58Xhg",
"__EVENTVALIDATION":"/wEWBQKit6iCDALyj/OQAgK3jsrkBALR55GJDgKC3IeGDK6TQlRlirS2Zja1Lmeh02u4XMwV",
"txtReturnUrl":"http://bboy.cnblogs.com"}
loginUrl = "http://passport.cnblogs.com/login.aspx"
login = urllib2.urlopen(loginUrl,urllib.urlencode(parms))
#print(unicode(login.read(),"utf8"))
#显示配置页面
avatar = urllib2.urlopen("http://home.cnblogs.com/set/avatar/")
#print(avatar.read().decode("utf8"))
except Exception,e:
print(e)
pass
if __name__ == '__main__':
main()
# Name: 模拟登录web
# Purpose:
#
# Author: huwei
#
# Created: 26/10/2010
# Copyright: (c) huwei 2010
# Licence: <your licence>
#-------------------------------------------------------------------------------
#!/usr/bin/env python
import time,urllib2,urllib
def main():
#登录博客园
loginCNblogs()
pass
#登录博客园
def loginCNblogs():
try:
#设置 cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
parms = {"tbUserName":"用户名","tbPassword":"密码","__EVENTTARGET":"btnLogin","__EVENTARGUMENT":"",
"__VIEWSTATE":"/wEPDwULLTExMDE0MzIzNDRkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcmcJekJlt5rFwfnjeMMnX9V58Xhg",
"__EVENTVALIDATION":"/wEWBQKit6iCDALyj/OQAgK3jsrkBALR55GJDgKC3IeGDK6TQlRlirS2Zja1Lmeh02u4XMwV",
"txtReturnUrl":"http://bboy.cnblogs.com"}
loginUrl = "http://passport.cnblogs.com/login.aspx"
login = urllib2.urlopen(loginUrl,urllib.urlencode(parms))
#print(unicode(login.read(),"utf8"))
#显示配置页面
avatar = urllib2.urlopen("http://home.cnblogs.com/set/avatar/")
#print(avatar.read().decode("utf8"))
except Exception,e:
print(e)
pass
if __name__ == '__main__':
main()
获取 网页很简单 直接 urllib2.urlopen(url).read() 就可以得到网页源码
这里是抓取登录后的页面,所有开头需要设置cookie
cookies = urllib2.HTTPCookieProcessor()
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
opener = urllib2.build_opener(cookies)
urllib2.install_opener(opener)
设置完 cookie以后 再使用 urllib2.urlopen()方法就可以带上你登录成功的cookie了
- Python网页抓取、模拟登录
- Python网页抓取、模拟登录
- JSOUP抓取网页,模拟登录
- 网页数据抓取-接前文模拟登录
- 用Python模拟登录正方教务系统并抓取初始网页的一些个人笔记
- python模拟浏览器登录淘宝抓取内容
- Python 模拟登录和抓取文章
- python 模拟抓取网页的工具包
- python中模拟浏览器抓取网页(-)
- java模拟登录内部系统抓取网页内容
- python 模拟web网页登录过程
- 模拟登录抓取页面
- 模拟浏览器抓取网页
- 模拟登陆 & 抓取网页
- Python使用mechanize模拟登录、抓取数据的代码
- Python使用mechanize模拟登录、抓取数据的代码
- Python项目模拟登录学校正方教务系统抓取课程表。
- 如何用Python去实现抓取静态网页+抓取动态网页+模拟登陆网站
- android控件之menu(一)
- android 蓝牙知识链接汇总
- 命令(Command)模式
- 整理URL REDIRECT
- Android应用发布渠道汇总!
- Python网页抓取、模拟登录
- MySQL 的安装和使用
- MySQL索引(一)
- layout使用继承TextView,Activity未使用,报java.lang.NullPointerException一例
- java.lang.ClassNotFoundException: org.apache.jsp.index_jsp解决方案
- Thinkphp 3.0 可定义编译统存的目录
- IPTV流媒体技术 MPEG2 TS与ISMA 比较
- 百万美元损失 2011十大ERP软件事故回顾
- Spring中加载ApplicationContext.xml文件的方式