爬虫闯关——1
来源:互联网 发布:有app源码怎么生成app 编辑:程序博客网 时间:2024/06/15 08:27
今天发现了一个很好玩的东西~
http://www.heibanke.com/lesson/crawler_ex00/
打开这个页面以后你会发现他会一直叫你在它的URL上进行操作改变数字,然后我就照着他说的做一直改一直改........直到它提示可能有很多数字还等着我输入,我意识到这不是个普通的操作
我们回到刚开始的界面并且查看它的源代码可以发现这个
按照他说的再输入他要的数字并且查看新的页面的网页源代码可以发现
于是我们就大概能知道他接下来几个网页的源代码是怎么样的了。我们可以写一个正则表达式匹配一下
import urllib.requestimport reurl=urllib.request.urlopen("http://www.heibanke.com/lesson/crawler_ex00/")html=url.read()index=re.findall(r'输入数字([0-9]{5})',html.decode('utf-8'))while index:url='http://www.heibanke.com/lesson/crawler_ex00/%s/' % index[0]print(url)tem=urllib.request.urlopen(url)html=tem.read().decode('utf-8')index=re.findall(r'数字是([0-9]{5})',html)print(html)
运行程序以后几秒钟以后就能得到
找到上方最后一个URL就可以啦~
阅读全文
0 0
- 爬虫闯关——1
- 爬虫闯关——2
- 爬虫闯关之旅-1
- 爬虫闯关 - 第一关
- 爬虫闯关 - 第二关
- 黑板客爬虫闯关
- PythonChallenge闯关游戏——第1-5关
- 爬虫闯关之旅-2
- python闯关3——国际象棋问题
- python闯关4——最大最小
- 黑板课爬虫闯关第一关
- 黑板客爬虫闯关第二关
- 黑板课爬虫闯关第三关
- 黑板客爬虫闯关第三关
- 黑板客爬虫闯关第四关
- 黑板客爬虫闯关第四关
- 黑板客爬虫闯关的第一关
- 黑板客爬虫闯关第二关
- My Github
- chrome快捷键
- Selenium结合sikuliX操作配置
- 近况记录
- 遇到的两个问题,1标签间间隔;2.mouseout子元素触发
- 爬虫闯关——1
- PHP递归 树形children
- Rails 和 Sinatra 的区别是什么?
- 常见的动态规划问题分析与求解
- js鼠标悬浮实现菜单栏
- iOS推送-从证书申请->移动端代码->node.js服务端代码
- android做应用更新时,apk放到服务器,但无法下载的解决方法
- emmmmm......滚动数组和0/1背包问题的一些新体会
- 怎么在maven工程中配置tomcat插件