Scrapy+Mongodb爬取数据
来源:互联网 发布:数码兽数据库 编辑:程序博客网 时间:2024/05/01 18:55
Scrapy爬虫数据存到mongodb中
其实主要是前两步
1、在settings.py中进行配置
ITEM_PIPELINES = { 'dmoz.pipelines.DmozPipeline': 300,}MONGODB_HOST = '127.0.0.1'MONGODB_PORT = 27017MONGODB_DBNAME = 'spider1'MONGODB_DOCNAME = 'book_item'
2、修改pipeline文件
首先初始化获得settings中的mongodb数据库信息,在process_item提交插入数据。
注意这个settings是哪里的 x.conf
from scrapy.conf import settingsimport pymongoclass DmozPipeline(object): # def process_item(self, item, spider): # return item def __init__(self): port = settings['MONGODB_PORT'] host = settings['MONGODB_HOST'] db_name = settings['MONGODB_DBNAME'] client = pymongo.MongoClient(host=host, port=port) db = client[db_name] self.post = db[settings['MONGODB_DOCNAME']] def process_item(self, item, spider): book_info = dict(item) self.post.insert(book_info) return item3.dmoz_item.pyimport scrapyfrom dmoz.items import DmozItemclass DmozItemSpider(scrapy.Spider): name = "dmoz_item" #allowed_domains = ["dmoz.org"] start_urls = ['http://www.dmoz.org/Computers/Programming/Languages/Python/Books/'] # name = "dmoz_item" # allowed_domains = ["domz.org"] # start_urls = ['http://domz.org/'] def parse(self, response): list=response.xpath('/html/body/div[5]/div/section[3]/div/div/div/div[3]') for i in list: item=DmozItem() item['link']=i.xpath('a/@href').extract() item['title']=i.xpath('a/div/text()').extract() item['desc']=i.xpath('div/text()').extract() yield item4.items.pyimport scrapyclass DmozItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title=scrapy.Field() desc=scrapy.Field() link=scrapy.Field()
运行这个爬虫就OK了 0 0
- Scrapy+Mongodb爬取数据
- Scrapy+MongoDB爬取并存储豌豆荚App数据
- 笔记:scrapy爬取的数据存入MySQL,MongoDB
- 使用scrapy+mongodb爬取数据示例(附下载)
- Scrapy+mongoDB爬取豆瓣TOP250
- scrapy+mongodb爬取红袖天香
- Scrapy爬取数据案例
- Scrapy 爬虫框架爬取网页数据
- 用scrapy爬取网页数据
- scrapy爬取post的数据
- Scrapy+phantomjs爬取动态网页数据
- 虎嗅网数据爬取(Scrapy Splash)
- 使用Scrapy爬取股票数据
- python scrapy框架爬取CNKI数据
- 手把手教你scrapy + mongodb 爬虫爬取GooglePlay
- 使用scrapy+mongodb爬取豆瓣电影TOP250
- scrapy实战-爬取
- Scrapy爬取图片
- 【机器学习基础】将回归模型用于分类问题
- Atom 在 linux 下安装有几率侧边栏默认显示在右侧,移动到左侧的设置方法
- [引用区别] c++中引用与java中引用区别 (转)
- Win7 32位 VS2012 不明原因的崩溃
- java实现1到n所有质数
- Scrapy+Mongodb爬取数据
- docker安装
- Tomcat配置优化经验
- 数据库的读写分离
- keil main之前执行过程
- 【机器学习基础】Logistic回归基础
- android新特性:CoordinatorLayout与FloatingActionButton、Snackbar的使用
- 分布式系统常用思想和技术总结
- 信托公司利用境外资金的两大途径