Python学习之网页抓取(一)
来源:互联网 发布:3d效果图软件 编辑:程序博客网 时间:2024/05/18 00:49
这一篇实现的功能是:抓取匹配正则表达式的网址,并下载到本地
#!/usr/bin/env python# -*- coding: GBK -*-import urllibimport restart_url = "http://www.baidu.com"#获取网站内所有链接def get_url(url): html = urllib.urlopen(url) pattern = re.compile("http://.*?\.com",re.I) while True: data = html.read() if data: urls = pattern.findall(data) else: break html.close() return urls#下载链接网页def download_url(url,filename): html = urllib.urlopen(url) f = open(filename,'w') while True: data = html.read() if data: f.write(data); else: break html.close() f.close() return 1#广度优先搜索'''start_url:初始网址times:需要遍历网页的数量'''def broad_traverse(start_url,times): urls = [] urls.append(start_url) i = 0#爬虫抓取的网页数目 while True: if i > times: break elif len(urls)>0: url = urls.pop(); print url,len(urls) download_url(url,str(i)+'htm') i = i+1 if len(urls)<times: url_list = get_url(url) for url in url_list: if urls.count(url)==0: urls.append(url) else: break return 1 def main(): broad_traverse(start_url,25) main()
- Python学习之网页抓取(一)
- Python学习之网页抓取(二)
- Python之HTML的解析(网页抓取一)
- Python 抓取网页 (一)
- python抓取网页(一)--获得网页链接
- Python爬虫学习笔记一:简单网页图片抓取
- Python 抓取网页学习系列之一(网页编码格式)
- Python之抓取动态网页
- Python网页抓取之Lxml
- Python之抓取网页元素
- 利用Python抓取和解析网页(一)
- 利用Python抓取和解析网页(一)
- 利用Python抓取和解析网页(一)
- Python实现抓取网页信息(一)
- python抓取网页学习(1)--urllib/urllib2/requests
- 网络爬虫(一)-------抓取网页之理解URL
- Python学习笔记-简易抓取网页-1
- 学习笔记-python抓取网页数据
- Linux USB "On-The-Go"(OTG) on OMAP H2 软件架构分析(一)
- win 7 ODBC 数据源
- js判断含中文字符的字符串长度
- MyEclipse可以实现拖放可视化控件
- Apache Thrift - 可伸缩的跨语言服务开发框架
- Python学习之网页抓取(一)
- 在ubuntu 12.04 上将默认的gcc 4.6 改成gcc 4.4
- Flex与java通过BlazeDS实现通信(简单Demo)
- Python 导入数据到mysql
- Java 中把一个字符串反转
- Linux USB "On-The-Go"(OTG) on OMAP H2 软件架构分析(二)
- 自定义一个Theme
- javascript里的条件判断
- TFS入门使用教程--团队成员权限设置