python最简单的小爬虫
来源:互联网 发布:mac重复照片清理软件 编辑:程序博客网 时间:2024/06/07 14:24
网络爬虫:
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫通用流程:
[1]发送请求
[2]获得页面
[3]解析页面
[4]下载内容
[5]存储内容
#!/usr/bin/python# coding:utf-8# 实现一个简单的爬虫,爬取百度贴吧图片import urllibimport re# 根据url获取网页html内容def getHtmlContent(url): page = urllib.urlopen(url) return page.read()# 从html中解析出所有jpg图片的url# 百度贴吧html中jpg图片的url格式为:<img ... src="XXX.jpg" width=...>def getJPGs(html): # 解析jpg图片url的正则 jpgReg = re.compile(r'<img.+?src="(.+?\.jpg)" width') # 注:这里最后加一个'width'是为了提高匹配精确度 # 解析出jpg的url列表 jpgs = re.findall(jpgReg, html) return jpgs# 用图片url下载图片并保存成制定文件名def downloadJPG(imgUrl, fileName): urllib.urlretrieve(imgUrl, fileName)# 批量下载图片,保存到F盘zdl文件夹def batchDownloadJPGs(imgUrls, path='F:/zdl/'): # 用于给图片命名 count = 1 for url in imgUrls: downloadJPG(url, ''.join([path, '{0}.jpg'.format(count)])) print '正在下载第'+str(count)+'张' count = count + 1# 封装:从百度贴吧网页下载图片def download(url): html = getHtmlContent(url) jpgs = getJPGs(html) batchDownloadJPGs(jpgs)def main(): url = 'http://tieba.baidu.com/p/2256306796' download(url)if __name__ == '__main__': main()
requests方式
#!/usr/bin/env.python# -*- coding: utf-8 -*-import requestsfrom bs4 import BeautifulSoupr = requests.get('https://www.baidu.com/')html = r.contentsoup = BeautifulSoup(html,'html.parser')#html.parser是解析器div_people_list = soup.find('body')data = div_people_list.find_all('p',attrs={'id':'cp'})print dataprint '-'*100
1.请求www.baidu.com
2.获取内容
3.解析内容
4.查找我们要的内容
这是什么东西呢,我们把\xa92017\xa0Baidu\xa0这些东西打印出来
print u'\xa92017\xa0Baidu\xa0',u'\u4f7f\u7528\u767e\u5ea6\u524d\u5fc5\u8bfb',\ u'\u610f\u89c1\u53cd\u9988',u'\xa0\u4eacICP\u8bc1030173\u53f7\xa0 '
©2017 Baidu 使用百度前必读 意见反馈 京ICP证030173号
有没有很熟悉
看下百度首页
具体按照自己要的数据,和解析格式爬取。
阅读全文
0 0
- python 3 最简单的小爬虫
- python最简单的小爬虫
- 最简单的python爬虫
- python最简单的爬虫
- 最简单的python 爬虫
- Python 3.0最简单的爬虫
- 最简单的Python网页爬虫
- Python 3.0最简单的爬虫
- 正则学习:简单的Python小爬虫
- python一个简单的小爬虫
- python简单的图片下载小爬虫
- python爬虫——写出最简单的网页爬虫
- python 特别简单的一个小爬虫(看着玩吧 )
- Python简单的爬虫
- 简单的python爬虫
- 简单的Python 爬虫
- Python网络爬虫4 ---- Linux下编写最简单的scrapy网络爬虫项目
- [Python]网络爬虫(六):一个简单的百度贴吧的小爬虫
- ORB_SLAM2 with kinect-v1
- [译]Android Application启动流程分析
- 简单实现美团城市切换
- Xilisoft Photo Slideshow Maker for Mac(电子相册制作)附注册机 V1.0.2中文破解版
- 我所了解的IT行业风险投资
- python最简单的小爬虫
- eclipse 一些实用快捷键
- 51汇编指令集详解
- EASYUI DATAGRID 多列复选框CheckBox
- java编译中的$.class文件内容
- Android-25种开源炫酷动画框架
- DES加密算法的实现
- Android7.0新特性Jack server
- fork()创建子进程步骤、函数用法及常见考点(内附fork()过程图)