python爬虫笔记 --------scrapy框架(4)
来源:互联网 发布:尚学堂java培训怎么样 编辑:程序博客网 时间:2024/05/17 01:08
爬虫小实例
1、首先创建scrapy工程,执行:
scrapy startproject search
2、创建search/search/spiders/search.py文件,内容为:
# coding:utf-8import sysreload(sys)sys.setdefaultencoding( "utf-8" )import scrapyclass SearchSpider(scrapy.Spider): name = "search" allowed_domains = ["baidu.com"] start_urls = [ "https://www.baidu.com/s?wd=爬虫" ] def parse(self, response): filename="result.html" with open(filename,'wb') as f: f.write(response.body)
3、修改settings.py文件:
(1)、把ROBOTSTXT_OBEY改为:
ROBOTSTXT_OBEY = FalseROBOTSTXT_OBEY表示是否遵守robots协议(被封禁的不抓取),因为我们的目的不纯,所以我们不遵守
(2)、去掉USER_AGENT前面的"#",并把USER_AGENT设置为:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36
USER_AGENT是ua,也就是发http请求时指明我是谁,因为我们的目的不纯,所以我们伪造成浏览器,
这里我是ubuntu系统中的谷歌浏览器(在浏览器中F12即能得到USER_AGENT)
(3)、为了避免抓取hang住,去掉DOWNLOAD_TIMEOUT前面的"#",并且设置为
:
DOWNLOAD_TIMEOUT = 5
4、执行:
scrapy crawl search
5、用浏览器打开新生成的本地文件result.html
0 0
- python爬虫笔记 --------scrapy框架(4)
- python爬虫框架scrapy学习笔记
- python爬虫框架scrapy学习笔记
- python爬虫笔记 --------scrapy框架(1)
- python爬虫笔记 --------scrapy框架(2)
- python爬虫笔记 --------scrapy框架(3)
- Python 爬虫框架 scrapy
- Python爬虫框架--Scrapy
- Python Scrapy爬虫框架
- python爬虫 -- scrapy框架
- Python爬虫---scrapy框架
- Scrapy爬虫框架笔记
- <scrapy>python 爬虫框架scrapy安装
- Python网络爬虫框架:Scrapy
- python 爬虫scrapy框架练习
- Scrapy:Python的爬虫框架
- Python爬虫框架Scrapy安装
- Python的爬虫框架 Scrapy
- EL表达式
- JS显性数据类型转换和隐性数据类型转换
- iOS 画气泡
- [心得] Effective Java心得笔记
- Ideal 常用快捷键
- python爬虫笔记 --------scrapy框架(4)
- 密码用*表示
- Object.keys方法之详解
- iOS 绘制气泡图案
- 以字节为单位显示变量的内存存储数据
- 云邦互联可以申请免费空间 不错 不相信的可以试试
- 顺序表的基本操作
- Vimium与Vimperator
- Jupyter Notebook 快速入门(上)