python爬虫学习日记(1)--获取验证码
来源:互联网 发布:油耗测试软件 编辑:程序博客网 时间:2024/06/10 20:43
最近发现python的爬虫比较容易实现,我是python零基础,就疯狂的搜索资料,实现一下简单的爬虫,首先是登录爬虫,找到我们学校的教务网站,其中我遇到的第一个难题就是验证码的获取,因为是零基础,所以参考一些教程。
http://www.dabu.info/python-login-crawler-captcha-cookies.html
1.找地址
首先,我们要找到这个网站生成验证码的地址,这个地址我们可以通过查看他的源代码来实现。
就以黎明大学教务网为例,这个教务网的模板很多学校都在采用:
我就截取表单的验证码部分即可。
<td align="center" rowspan="3" ><img id="imgCode" src="../sys/ValidateCode.aspx" onclick="changeValidateCode(this)" alt="单击可更换图片!" style="CURSOR: pointer;"><br>看不清,则单击图片! </td>
这里就可以知道,地址就是../sys/ValidateCode.aspx
组合一下地址就是http://jwmis.lmu.cn/sys/ValidateCode.aspx
也就是我们等一下要用到的地址了。
我们可以查看一下那个网页。
2.处理图片
去查看了一下那个地址
果不其然,都是乱码,因为验证码分为两种。
1)直接处理成JPG/GIF/PNG或者其他格式,然后直接读取到一个图片地址。
2)接收用户触发,然后生成,再直接处理成图像,不读取到一个图片地址。
我们这里是第二种,我们要自己来读取他,到本地,再手动输入验证码。
# -*- coding: utf-8 -*-import urllib2#验证码的处理##验证码生成页面的地址#im_url = 'http://jwmis.lmu.cn/sys/ValidateCode.aspx'#读取验证码图片#im_data = urllib2.urlopen(im_url).read()#打开一个Code.PNG文件在D盘,没有的话自动生成#f=open('d:\\Code.png','wb')#写入图片内容#f.write(im_data)#关闭文件#f.close()
这里包括两个部分:
1)打开那个生成验证码图片的页面,读取
2)将读取到的内容,保存成图片,下载到本地
我们这里的地址是可以随便写的,保存在你想保存的地方。
到这里我们就完成了验证码的一小部分。
by–LoDog
- python爬虫学习日记(1)--获取验证码
- python 3.5 爬虫日记1
- 学习python爬虫之菜鸟日记(一)
- python-获取提取网页url爬虫学习(1)
- 爬虫学习日记 ( 一)
- python爬虫学习获取邮箱
- python学习日记(1)
- 【Python网络爬虫学习01】爬取网络验证码
- python爬虫-->验证码处理
- Python网络爬虫(1)获取网页
- Python学习日记.1
- python学习日记1
- Python 爬虫学习1
- Python爬虫学习1
- Python 爬虫学习1
- python爬虫学习日记(2)--分析POST信息(MD5加密)
- Python爬虫学习日记:模拟带有cookie的登陆
- Python 爬虫(获取小说)
- linux ls tree
- java中String类常量池分析及"equals"和"==”异同
- 数字地与模拟地
- 简略方法---结构数组所有元素赋相同值
- java 原型模式
- python爬虫学习日记(1)--获取验证码
- 数据结构之链栈的所有操作
- C++ 深拷贝 与 浅拷贝
- spring-mongodb-data存储文件
- 测试测试测试
- 3D软引擎之深度排序
- [Emacs学习笔记]使用Emacs写c语言并编译运行
- ABI EABI
- C# 发送邮件