python获取网页上所有链接
来源:互联网 发布:自己动手装修房子软件 编辑:程序博客网 时间:2024/06/05 20:39
import urllib2 #获取源码的函数,urllib3更换 urllib.request.urlopen(url).read() return urllib2.urlopen(url).read() def get_next_target(page): #每次处理page中寻找链接的函数 start_link = page.find('<a href=') if start_link == -1: return None, 0 start_quote = page.find('"', start_link) end_quote = page.find('"', start_quote + 1) url = page[start_quote + 1:end_quote] return url, end_quote def print_all_links(page): #循环寻找 while True: url, endpos = get_next_target(page) if url: print (url) page = page[endpos:] else: break #print_all_links(get_page('http://xkcd.com/353')) print_all_links(get_page('http://www.baidu.com')) #用百度做一下实验
还没有完善,a标签触发的javascript事件还未处理。一些函数在python3中不能用,最近学的是python2的课程。
0 0
- python获取网页上所有链接
- python爬网页上所有的链接(爬到最深)
- selenium 获取网页所有链接
- python 抓去指定网页以及该网页上所有链接
- 如何获取网页中所有的链接
- python 获取网页中所有email地址
- C#获取远程网页中的所有链接URL
- C#获取远程网页中的所有链接URL
- Java正则表达式获取网页所有网址和链接文字
- Java获取网页所有网址和链接文字(正则表达式)
- C#获取远程网页中的所有链接URL
- c++ 获取一个网页下所有子链接
- 提取网页所有链接
- Python爬虫(七)学习提取网页中所有链接
- Python 网络爬虫 009 (编程) 通过正则表达式来获取一个网页中的所有的URL链接,并下载这些URL链接的源代码
- Python爬虫项目,获取所有网站上的新闻,并保存到数据库中,解析html网页等(未完待续)
- 正则获取指定网页上的所有超链接
- python抓取安居客上的所有地区链接
- NB多项式模型、神经网络、SVM初步—斯坦福ML公开课笔记6
- 最大子串和问题(Maximum Subarray)
- 即时编译 理解
- 你不知道的javascript章节总结(第二章)
- Effective C++学习笔记(五)
- python获取网页上所有链接
- Spark运行流程源码走读
- 提升CSS文件的可维护性--采用BEM进行CSS类进行命名
- 鼠标悬停在td 上时,改变td的背景颜色。
- 导航栏push后再出现时出现空白黑色区域?
- java的反射机制浅谈
- 视图操作
- js的数组
- oracle invalid number