[python] spider 01
来源:互联网 发布:sql和oracle语句 编辑:程序博客网 时间:2024/05/28 16:12
入門:
爬蟲分為三步;1.抓取網頁html
2.分析語義,各取所需
3.儲存數據 / 展示成果
1. 網頁抓取
import reimport urllibdef getHtml(url): page = urllib.urlopen(url) return page.read()
2. 分析語義
def getImg(html): reg = r'<img src="(.*?\.png)">' imgre = re.compile(reg) imglist = re.findall(imgre,html) x=0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.png' % x) print '%s.png' % x x+=1
這裡面涉及很多問題,正則表達式是一環,解析網頁還有BeautifulSoup這類工具。
3. 儲存數據 / 展示應用
//上述代碼已完成//
簡單的調用就可以了。
html = getHtml("http://www.ifeng.com")getImg(html)
當然有些網頁會做一些保護措施,不讓別人爬,可惡,那我們要在代碼裡做一些改動吧?!!
有個哥們的連接 看看
http://blog.csdn.net/column/details/why-bug.html
- [python] spider 01
- python-spider
- Python spider
- Spider 01
- python spider code
- (转)Python-Spider
- Python Spider, Web Crawler
- python spider code
- python spider 爬虫
- Python Spider入门
- Python Spider 的总结
- 用python中htmlParser实现的spider(python spider)
- 用python中htmlParser实现的spider(python spider)
- python - 多进程spider
- Spider
- spider
- Spider
- spider
- find exec rm
- TextView被选中时 改变字体颜色
- 挑战drupal(2)--下载和安装drupal
- hibernate中 get和load之间的区别
- android 反编译
- [python] spider 01
- H.264参考软件JM12.2RC代码详细流程
- 【Cocos2dx隐藏iOS7状态栏】通过添加Plist Key隐藏iOS7状态栏
- 题目1506:求1+2+3+...+n
- uboot编译过程完全分析
- Floor problem
- 2014腾讯校招面试之一总结
- VC++程序常见错误 提示(1)---gyy整理
- 温故而知新之异常处理