python实战之网络爬虫

来源:互联网 发布:卧虎藏龙2有几个端口 编辑:程序博客网 时间:2024/05/22 00:39


网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

保存数据的方法大概可以分为几类:保存文本、保存二进制文件(包括图片)、保存到数据库


#请求头 伪装浏览器
    headers={
        'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding':'gzip, deflate, sdch',
        'Accept-Language':'zh-CN,zh;q=0.8',
        'Connection':'keep-alive',
        'Host':'www.meizitu.com',
        'Upgrade-Insecure-Requests': '1',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3013.3 Safari/537.36'
    }


爬虫

1.首先是获取目标页面
 2.解析获取的网页中的元素,取得自己想要的(借助各种库工具,分析页面源码,)
 3.存储获取的数据,比如写入数据库


find(attrs={'id':'book'})  = =  soup.find(id='book')


代理IP

deEncodeError: 'ascii' codec can't encode characters in position 13-16: ord
not in range(128)错误

import sys

reload(sys)

sys.setdefaultencoding('utf8')  




爬妹子:http://www.meizitu.com/

原文地址:http://blog.csdn.net/aaronjny/article/details/73603727

页面解析,构成  

列表页面地址的构成方式是

  • 第1页 http://www.meizitu.com/a/
  • 第n页http://www.meizitu.com/a/list_1_n.html

图集地址的构成方式是

地址:http://www.meizitu.com/a/{若干数字}.html 
匹配正则式:http://www.meizitu.com/a/\d+.html


一个图集里图片地址(img/@src)的构成方式为

地址: 
http://mm.howkuai.com/wp-content/uploads/2017a/05/11/01.jpg 
地址格式: 
http://mm.howkuai.com/wp-content/uploads/20{数字}a/{数字}/{数字}/{数字}.jpg 
匹配正则式: 
http://mm.howkuai.com/wp-content/uploads/20\d{2}a/\d{2}/\d{2}/\d+.jpg