python实战之网络爬虫
来源:互联网 发布:卧虎藏龙2有几个端口 编辑:程序博客网 时间:2024/05/22 00:39
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
保存数据的方法大概可以分为几类:保存文本、保存二进制文件(包括图片)、保存到数据库
#请求头 伪装浏览器
headers={'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8','Accept-Encoding':'gzip, deflate, sdch','Accept-Language':'zh-CN,zh;q=0.8','Connection':'keep-alive','Host':'www.meizitu.com','Upgrade-Insecure-Requests': '1','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'}
爬虫
1.首先是获取目标页面
2.解析获取的网页中的元素,取得自己想要的(借助各种库工具,分析页面源码,)
3.存储获取的数据,比如写入数据库
find(attrs={'id':'book'}) = = soup.find(id='book')
代理IP
deEncodeError: 'ascii' codec can't encode characters in position 13-16: ord
not in range(128)错误
import sys
reload(sys)
sys.setdefaultencoding('utf8')
爬妹子:http://www.meizitu.com/
原文地址:http://blog.csdn.net/aaronjny/article/details/73603727
页面解析,构成
列表页面地址的构成方式是:
- 第1页
http://www.meizitu.com/a/
- 第n页
http://www.meizitu.com/a/list_1_n.html
图集地址的构成方式是:
地址:
http://www.meizitu.com/a/{若干数字}.html
匹配正则式:http://www.meizitu.com/a/\d+.html
一个图集里图片地址(img/@src)的构成方式为:
地址:
http://mm.howkuai.com/wp-content/uploads/2017a/05/11/01.jpg
地址格式:http://mm.howkuai.com/wp-content/uploads/20{数字}a/{数字}/{数字}/{数字}.jpg
匹配正则式:http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg
- python实战之网络爬虫
- Python实战:Python网络爬虫
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python网络爬虫与信息提取(三):网络爬虫之实战
- Python之网络爬虫
- Python--之网络爬虫
- Python之网络爬虫
- 【Python爬虫9】Python网络爬虫实例实战
- Python大型网络爬虫项目开发实战
- Python网络爬虫实战项目代码大全
- Python网络爬虫实战项目代码大全
- Python实战:网络爬虫都能干什么?
- Python网络爬虫实战项目代码大全
- 网易云课堂 python网络爬虫实战
- python网络爬虫实战--重点整理
- python网络爬虫实战笔记(一)
- Python网络爬虫实战项目大全!
- Python之网络爬虫一
- 传 Snapchat 母公司明年 IPO,估值达 250 亿美金
- Windows 10,快速用右键获取管理员权限,可用于整个目录文件夹
- 【第1092期】与你息息相关的业界新闻
- 传富士通考虑出售持续亏损的 PC 业务,联想将接盘?
- 波兰建太阳能自行车道,夜晚发出诡异蓝光
- python实战之网络爬虫
- Python从零开始系列连载(3)——Python的基本数据类型(上)
- 网络请求突然请求不到数据
- 编写高性能 JavaSCript 注意点
- cocos2d-x之写自己三国手游(三)
- 汇总一些知名的 JavaScript 开发开源项目
- hadoop2.x 伪分布式环境搭建
- Web Service工作原理及实例
- 飞机也要纯电动?新型电池让梦想成为现实