python模块学习---mechanize(模拟浏览器)

来源:互联网 发布:杨焕明 知乎 编辑:程序博客网 时间:2024/05/21 15:51

mechanize是非常合适的模拟浏览器的模块。

它的特点主要有:

1 http,https协议等。
2 简单的HTML表单填写。
3 浏览器历史记录和重载。
4 Referer的HTTP头的正确添加(可选)。
5 自动遵守robots.txt的。
6 自动处理HTTP-EQUIV和刷新。

所以你可以用mechanize来完成一些自动化浏览器想要做的事情,比如自动登录表单,自动填写表单等。
首先你在mechanize download页面里面下载并且安装好
然后可以看下文档:http://wwwsearch.sourceforge.net/mechanize/

下面是我写的简单代码:
#导入模块##import mechanizeimport cookielibfrom BeautifulSoup import BeautifulSoupbr = mechanize.Browser()cj = cookielib.LWPCookieJar()br.set_cookiejar(cj)##关联cookies###设置一些参数,因为是模拟客户端请求,所以要支持客户端的一些常用功能,比如gzip,referer等br.set_handle_equiv(True)br.set_handle_gzip(True)br.set_handle_redirect(True)br.set_handle_referer(True)br.set_handle_robots(False)br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)###这个是degbug##你可以看到他中间的执行过程,对你调试代码有帮助br.set_debug_http(True)#br.set_debug_redirects(True)#br.set_debug_responses(True)br.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.1.11) Gecko/20100701 Firefox/3.5.11')]##模拟浏览器头response = br.open('http://xxx..com/')##自己设定一个urlfor f in br.forms():##有的页面有很多表单,你可以通过来查看print fbr.select_form(nr=1)##选择表单1,br.form['username'] = '用户账户'br.form['password'] = '密码'br.submit()##提交表单print 'success login'


0 0