Scrapy命令 和 User Agent
来源:互联网 发布:数据洪流 编辑:程序博客网 时间:2024/05/21 11:16
Scrapy 命令
全局命令
startproject 新建工程
settings 配置文件
genspider 新建spider
bench 测试命令
runspider
shell
fetch 使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出。
view 在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现。
version scrapy的版本信息
项目命令
crawl 执行spider
check 检查spider
list 列出当前项目中可用的spider
edit
parse 获取给定的URL并使用相应的spider分析处理
常用操作
新建工程:scrapy startproject XXX
新建spider:scrapy genspider XXX “XXX.XXX.XX”
执行spider:scrapy crawl XXX
检查spider:scrapy check XXX
列出当前项目中可用的spider:scrapy list
shell命令
Scrapy shell 是一个交互式的shell,Scrapy shell对于开发爬虫是非常好用的一个测试工具。他可以在未启动spider的情况下尝试及调试爬虫代码。
shelp() - 打印可用对象及快捷命令的帮助列表
fetch(request_or_url) - 根据给定的请求(request)或URL获取一个新的response,并更新相关的对象。
view(response) - 在本机的浏览器打开给定的response。 其会在response的body中添加一个 tag ,使得外部链接(例如图片及css)能正确显示。
在spider中启用shell来查看response
通过 scrapy.shell.inspect_response 函数来实现:
import scrapyfrom scrapy.shell import inspect_responseclass MySpider(scrapy.Spider): name = "myspider" def parse(self, response): inspect_response(response, self)
使用shell
打开shell界面
scrapy shell
请求百度页面
fetch(“http://www.baidu.com“)
response.xpath()匹配数据
a = response.xpath(“//div[@id=’lg’]/img/@src”)
匹配到百度图标链接:
- 得到data
b = a.extract()[0]
User Agent
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
操作系统标识
浏览器User-Agent大全
PC端
safari 5.1 – MAC
User-Agent:Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
safari 5.1 – Windows
User-Agent:Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50
IE 9.0
User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;
IE 8.0
User-Agent:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)
IE 7.0
User-Agent:Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)
IE 6.0
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)
Firefox 4.0.1 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Firefox 4.0.1 – Windows
User-Agent:Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1
Opera 11.11 – MAC
User-Agent:Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11
Opera 11.11 – Windows
User-Agent:Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11
Chrome 17.0 – MAC
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11
傲游(Maxthon)
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)
腾讯TT
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)
世界之窗(The World) 2.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
世界之窗(The World) 3.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)
搜狗浏览器 1.x
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)
360浏览器
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)
Avant
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)
Green Browser
User-Agent: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)
移动设备端
safari iOS 4.33 – iPhone
User-Agent:Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
safari ios 4.33 – iPod Touch
User-Agent:Mozilla/5.0 (iPod; U; CPU iPhone OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
safari iOS 4.33 – iPad
User-Agent:Mozilla/5.0 (iPad; U; CPU OS 4_3_3 like Mac OS X; en-us) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8J2 Safari/6533.18.5
Android N1
User-Agent: Mozilla/5.0 (Linux; U; android 2.3.7; en-us; Nexus One Build/FRF91) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Android QQ浏览器 For android
User-Agent: MQQBrowser/26 Mozilla/5.0 (linux; U; Android 2.3.7; zh-cn; MB200 Build/GRJ22; CyanogenMod-7) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1
Android Opera Mobile
User-Agent: Opera/9.80 (Android 2.3.4; Linux; Opera Mobi/build-1107180945; U; en-GB) Presto/2.8.149 Version/11.10
Android Pad Moto Xoom
User-Agent: Mozilla/5.0 (Linux; U; Android 3.0; en-us; Xoom Build/HRI39) AppleWebKit/534.13 (KHTML, like Gecko) Version/4.0 Safari/534.13
BlackBerry
User-Agent: Mozilla/5.0 (BlackBerry; U; BlackBerry 9800; en) AppleWebKit/534.1+ (KHTML, like Gecko) Version/6.0.0.337 Mobile Safari/534.1+
WebOS HP Touchpad
User-Agent: Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.0; U; en-US) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/233.70 Safari/534.6 TouchPad/1.0
Nokia N97
User-Agent: Mozilla/5.0 (SymbianOS/9.4; Series60/5.0 NokiaN97-1/20.0.019; Profile/MIDP-2.1 Configuration/CLDC-1.1) AppleWebKit/525 (KHTML, like Gecko) BrowserNG/7.1.18124
Windows Phone Mango
User-Agent: Mozilla/5.0 (compatible; MSIE 9.0; Windows Phone OS 7.5; Trident/5.0; IEMobile/9.0; HTC; Titan)
UC无
User-Agent: UCWEB7.0.2.37/28/999
UC标准
User-Agent: NOKIA5700/ UCWEB7.0.2.37/28/999
UCOpenwave
User-Agent: Openwave/ UCWEB7.0.2.37/28/999
UC Opera
User-Agent: Mozilla/4.0 (compatible; MSIE 6.0; ) Opera/UCWEB7.0.2.37/28/999
爬虫爬取网站数据时,有时候需要通过user agent来模拟移动端和PC端标识
- Scrapy命令 和 User Agent
- scrapy之user-agent池
- python scrapy 之 随机选择user-agent
- Scrapy 通过中间件实现随机User-Agent
- User-Agent-Switcher和fiddler
- scrapy爬虫防止被禁止 User Agent切换
- scrapy-redis介绍(三):如何自定义user-agent
- scrapy User Agent切换的两种方法
- Scrapy在采集网页时使用随机user-agent
- python3 网络爬虫(五)scrapy中使用User-Agent
- scrapy使用random user-agent的两种方式
- scrapy防禁止 设置user-agent的方法
- scrapy修改user-agent的几种方法
- 使用cat,awk和sort命令从nginx访问日志中统计user-agent类型
- User Agent
- user agent
- User Agent
- User Agent
- c++中赋值操作符的重载
- 动态规划入门-矩阵取数
- leetcode--Single Number II
- java 泛型详解-绝对是对泛型方法讲解最详细的,没有之一
- leetcode--Word Break
- Scrapy命令 和 User Agent
- 选择合适的Chrome浏览器安装进行WebGL的开发调试
- 如何使用openssl生成RSA公钥和私钥对
- 晒晒太阳,眼镜就能为手机充电,甚至窗户都成了“发电厂”
- leetcode--Linked List Cycle
- springmvc上传图片并显示图片--支持多图片上传
- POJ1004算法解析
- 数值积分
- SpringMVC使用@Valid注解进行数据验证