利用scrapy爬取新浪体育新闻的小例子
来源:互联网 发布:我朝太祖知乎 编辑:程序博客网 时间:2024/05/16 03:35
1、新建项目
scrapy startproject tutorial
整体结构如下
2、修改items
# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass SinaminiItem(scrapy.Item): # define the fields for your item here like: name = scrapy.Field() content = scrapy.Field()
3、spider
最后就是spider了,我也懒得写pipe了,结果截图展示
spider也是继承了最简单的spider,起名为myspider.py ,如下:
代码如下:
import scrapyfrom sinamini.items import SinaminiItemclass DmozSpider(scrapy.Spider): name = "mysina" allowed_domains = ["sports.sina.com.cn"] start_urls = [ "http://sports.sina.com.cn/g/pl/2017-05-23/doc-ifyfkqks4451477.shtml" ] def parse(self, response): try: for sel in response.xpath("//article[@class='article-a']"): item = SinaminiItem() item['name'] = sel.xpath('h1/text()').extract() item['content'] = sel.xpath("div[@class='article-a__content']/p/text()").extract() yield item except: print('error') for url in response.selector.xpath("//a/@href").re(r'^http://sports.sina.*'): yield scrapy.Request(url,callback = self.parse)
结果展示
scrapy crawl mysina ###执行spider
结果如下:
阅读全文
0 0
- 利用scrapy爬取新浪体育新闻的小例子
- 利用scrapy爬取新浪体育上的图片
- Scrapy爬取新浪天气问题
- 利用scrapy-splash爬取JS生成的动态页面
- 利用Scrapy爬取1905电影网
- 利用Scrapy爬取糗事百科段子
- 利用scrapy爬取豆瓣top250
- 爬取新浪微博(一)Scrapy入门教程
- Scrapy爬虫(2)爬取新浪旅游图片
- Scrapy爬虫小例子
- scrapy爬虫小例子
- 利用scrapy框架爬取互动百科的词条--存成json
- 【学习记录】利用scrapy爬取论坛图片
- 爬取改版后的新浪微博粉丝评论,利用pandas存储。
- Scrapy 爬取 豆瓣电影的短评
- scrapy爬取post的数据
- scrapy捕获爬取失败的url
- 用Python 的 Scrapy 爬取 网站
- 《UNIX网络编程 卷1》 笔记: 非阻塞式I/O
- OpenGL 入门基础教程 —— 基本术语篇【1】
- VS部署发布失败解决方法
- angularJs中$scope数据序列化
- 读书好多读书读好书(技巧题,水)
- 利用scrapy爬取新浪体育新闻的小例子
- restfun_api设计指南
- 安装测试facebook FAISS(CPU)
- 解决 eclipse移植androidstudio Could not determine 的问题
- 阿里云centos7.3安装tomcat8
- caffe网络结构图绘制
- 解决一切listview或者adapter等类似的数据错误,点击错误的问题。
- 用Inno Setup来解决.NetFramework安装问题
- 设置HTML表单文本框为只读的几种方式