第1.5章 scrapy之pipelines
来源:互联网 发布:五年高考三年模拟淘宝 编辑:程序博客网 时间:2024/05/16 08:10
下面的代码是结合pandas和sqlalchemy将数据写入到mysql数据库中。
# -*- coding: utf-8 -*-# 管道的作用主要是做数据清洗from eie.middlewares import udf_configfrom sqlalchemy.engine import create_engineimport pandas as pdfrom eie import settingsimport threadingfrom scrapy.exceptions import DropItemlogger = udf_config.loggerengine = create_engine('mysql+mysqldb://{}:{}@{}:3306/{}'.format(settings.MYSQL_USER, settings.MYSQL_PASSWD, settings.MYSQL_HOST, settings.MYSQL_DBNAME), connect_args={'charset': 'utf8'}, pool_size=settings.MYSQL_POOL_SIZE)mutex = threading.Lock()class EiePipeline(object): def process_item(self, item, spider): df = pd.DataFrame([item]) logger.debug(df) try: df.to_sql('eie_ip', engine, if_exists='append', index=False) except Exception, e: raise DropItem('insert to mysql error! %s, %s' % (item, e)) return item def close_spider(self, spider): pass
阅读全文
0 0
- 第1.5章 scrapy之pipelines
- scrapy中pipelines
- Scrapy-pipelines的使用
- scrapy爬知乎日报--pipelines
- Python Scrapy学习之pipelines不能保存数据到文件问题
- 第1.3章 scrapy之动态UserAgent
- 第1.4章 scrapy之setting
- 第1.6章 scrapy之logger
- 第2.3章 scrapy之selenium
- 第3.2章 scrapy之kafka
- 第4.1章 scrapy之web工程
- spark mllib之Pipelines
- Scrapy之路第一篇
- 第3.1章 scrapy之pandas操作Mysql
- 第1.7章 scrapy之ip代理的使用
- 第1.8章 scrapy之splash的使用
- 第1.8章 scrapy之完整工程部署
- 使用python的scrapy框架,spider与pipelines的调用
- 开发者必看|Android 8.0 新特性及开发指南
- 基于基站定位数据的商圈分析代码详细解释
- java调用kotlin注意事项
- kafka 配置文件参数详解
- Tomcat提示指定的服务未安装Unable to open the service 'tomcat'
- 第1.5章 scrapy之pipelines
- hive 分区表msck命令
- org.apache.shiro.UnavailableSecurityManagerException: No SecurityManager accessible to the calling c
- hbase编程:通过Java api操作hbase
- 双指针的常见用法
- 解决Win10自带应用没有网络连接问题
- 逻辑回归LR推导(sigmoid,损失函数,梯度,参数更新公式)
- C665x视频处理平台项目总结
- jsonp原理