scrapy中文手册笔记(二)

来源:互联网 发布:2017北京云计算大会 编辑:程序博客网 时间:2024/05/24 07:14

一、从网页中抽取数据,有流行的第三方库BeautifulSoup,或者lxml。但是在scrapy中,有自己的抽取机制,称为选择器,Selector,它们通过特定的XPath或者CSS表达式来选择要抽取的数据。
二、使用选择器
1、构造选择器
scrapy selector是用文字或者TextResponse构造的Selector实例。
(1)使用response构造时:

from scrapy.selector import Selectorfrom scrapy.http import HtmlResponseresponse = HtmlResponse(url='网址',body=body)Selector(response=response).xpath('抽取表达式').extract()

但是在实际中,为了方便,response对象设置了一个selector属性,来提供selector,所以可以不用构建selector,

response.selector.xpath('抽取表达式').extract()

2、可以使用快捷的方式,来处理response:response.xpath(),和response.css(),来通过表达式抽取html中的内容。这两个方法,返回的是selectorlist的实例,是一个新的选择器的列表。所以,可以对使用了“.xpath”和“.css”的选择器列表,继续使用选择器方法(如继续调用.xpath方法)。如果想直接获得真实的原文数据,需要调用”.extract()”方法,来将真实数据提出并返回真实数据的列表。
selector还有.re()方法,通过正则表达式来提前数据。对一个选择器的实例,或者选择器列表的实例,调用.re()方法,返回的是匹配上的unicode字符串的列表。
三、参考信息
1、selector的实例是对选择某些响应内容的封装。type可以定义选择器类型,分为html、xml、None(默认)。
response是htmlresponse或者xmlresponse的一个对象,被用来选择和提取数据。
2、常用方法
(1)xpath(表达式):寻找可以匹配表达式的节点,并返回selectorList的一个实例结果,单一化所有元素,列表中的元素,也符合selector,实现selector的接口。
(2)css(表达式):应用给定的css选择器,返回selectorList的实例。表达式为包含css选择器的字符串。
(3)extract():用在selector对象上,返回一个unicode字符串列表。
(4)re(表达式):应用给定的表达式,并返回匹配到的unicode字符串列表。
(5)暂未深究的方法:register_namespace 、remove_namespace 、….

(未完待续…..)

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 白鞋子被晒黄了怎么办? 耐克空军一号白色发黄怎么办 空军一号破皮了怎么办 匡威鞋帆布破了怎么办 脚腕起疙瘩很痒怎么办 跑步后脚踝微疼怎么办 跑步跑得脚疼怎么办 nike air 鞋头脱胶怎么办 耐克空军一号磨脚怎么办 白鞋刷完变黄了怎么办 乔丹气垫坏了怎么办 气垫鞋气垫坏了怎么办 建行u盾忘记密码怎么办 工商银行u盾忘记密码怎么办 民生银行不给u盾怎么办 银行不给开u盾怎么办 有车有空想赚点外快怎么办 车被注册了滴滴怎么办 快手号手机丢了怎么办 手机号码不停收到验证码怎么办 手机网页滑动自动跳到最下面怎么办 网页一打开就跳至评论怎么办? 百度总出现重复的网页怎么办 苹果7一直处于系统升级页面怎么办 手机看百度文章总是跳转怎么办 美度舵手滑丝怎么办 小区房产证办不下来怎么办 美海军陆战队进驻台湾大陆怎么办? 束脚裤带子怎么办系 眼角弄伤了应该怎么办 浴盆下水盖坏了怎么办 冒险岛勋章多了怎么办 玉手镯取不下来怎么办?终极绝招! 陆金所收益低怎么办 陆金所登录密码忘记怎么办 陆金所理财逾期怎么办 死亡家属晚上来闹怎么办 开车撞到人家属闹要请护工怎么办 骑马与砍杀战团打下城市怎么办 我的脑子有问题怎么办 公司外派异地工作医保怎么办