scrapy使用笔记

来源:互联网 发布:淘宝永久封店保证金 编辑:程序博客网 时间:2024/06/07 08:17

spider类

仅需要start_urls/start_requests ,并且对每一个response负责调用parse方法。
1. name:spider的名称。
2. allowed_domains:如果启用OffsiteMiddleware,不在该列表内的domain不会被爬取。
3. start_urls:spider从该列表列出的url开始爬取。
4. start_requests():为start_urls中的每一个url产生一个request
5. make_requests_from_url(url):把url转换成request
6. parse(response):如果request中没指定callback,则使用该方法处理response
7. log(message[, level, component ]):记录日志
8. closed(reason):spider关闭的时候调用

0 0
原创粉丝点击