python实战之网络爬虫

来源：互联网发布：卧虎藏龙2有几个端口编辑：程序博客网时间：2024/05/22 00:39

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

保存数据的方法大概可以分为几类：保存文本、保存二进制文件（包括图片）、保存到数据库

#请求头 伪装浏览器

    headers={

        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

        'Accept-Encoding':'gzip, deflate, sdch',

        'Accept-Language':'zh-CN,zh;q=0.8',

        'Connection':'keep-alive',

        'Host':'www.meizitu.com',

        'Upgrade-Insecure-Requests': '1',

        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'

爬虫

1.首先是获取目标页面
2.解析获取的网页中的元素，取得自己想要的（借助各种库工具，分析页面源码，）
3.存储获取的数据，比如写入数据库

find(attrs={'id':'book'}) = = soup.find(id='book')

代理IP

deEncodeError: 'ascii' codec can't encode characters in position 13-16: ord
not in range(128)错误

import sys

reload(sys)

sys.setdefaultencoding('utf8')

爬妹子：http://www.meizitu.com/

原文地址：http://blog.csdn.net/aaronjny/article/details/73603727

页面解析，构成

列表页面地址的构成方式是：

第1页 http://www.meizitu.com/a/
第n页http://www.meizitu.com/a/list_1_n.html

图集地址的构成方式是：

地址：http://www.meizitu.com/a/{若干数字}.html
匹配正则式：http://www.meizitu.com/a/\d+.html

一个图集里图片地址(img/@src)的构成方式为：

地址：
http://mm.howkuai.com/wp-content/uploads/2017a/05/11/01.jpg
地址格式：
http://mm.howkuai.com/wp-content/uploads/20{数字}a/{数字}/{数字}/{数字}.jpg
匹配正则式：
http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg

阅读全文

0 0