实战 使用scrapy 爬取代理 并保存到数据库
来源:互联网 发布:怎么开通淘宝客账号 编辑:程序博客网 时间:2024/05/22 01:46
爬取网站: www.proxy360.com
爬取思路: 1.分析首页,2 分析要爬取的目标 3,保存数据
1 首先分析页面
开始爬取
创建爬虫项目
scrapy startproject daili
创建爬虫
cd daili
scrapy genspider dd proxy360.cn
创建了一个名叫dd的爬虫
在 items.py 下设置需要爬取的内容
这里爬取ipimport scrapyclass DailiItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() ip =scrapy.Field() pass然后进入爬虫目录在spiders下的 dd.py# -*- coding: utf-8 -*-import scrapyfrom daili.items import DailiItem #导入item.py定义的类名class DdSpider(scrapy.Spider): name = "dd" allowed_domains = ["www.proxy360.cn"]nations = ['Brazil','Chain','Japan','Vietanm'] #定义好要爬取的名字的后缀start_urls = [] for nation in nations: 使用for 循环依次加载上 start_urls.append('http://www.proxy360.cn/Region/'+nation ) def parse(self, response): #找到要爬取div sc = response.xpath('//div[@class="proxylistitem"]') for sub in sc: 开始依次爬取 item = DailiItem() #调用item定义的类名 item["ip"]= sub.xpath('.//span[1]/text()').extract()[0] yield item 爬取的内容返回到pipelines。py里
配置 setting.pyUSER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'ITEM_PIPELINES = { 'daili.pipelines.DailiPipeline': 300,}进入到pipelines.pyimport pymysql # 使用pymysql 连接 如果没有 使用pip install pymysql 下载class DailiPipeline(object): def __init__(self): self.conn = pymysql.connect(host="127.0.0.1",user ="root",password= "root",db="get") 连接数据库 host 连接地址 user 账号 password密码 def process_item(self, item, spider): try: title = item["ip"] #获取 从dd。py传递过来的 内容 sql ="insert into daili(ip) VALUES ('"+title+"')" 传到数据库 print sql self.conn.query(sql) return item except Exception as e: pass def close_spider(self): self.conn.close() 关闭数据库连接
0 0
- 实战 使用scrapy 爬取代理 并保存到数据库
- Scrapy爬取网页并保存到数据库中
- scrapy 详细实例-爬取百度贴吧数据并保存到文件和和数据库中
- Scrapy爬取图片并保存
- #python学习笔记#使用python爬取网站数据并保存到数据库
- 使用scrapy爬取代理ip
- Python爬虫系列之----Scrapy(八)爬取豆瓣读书某个tag下的所有书籍并保存到Mysql数据库中去
- scrapy实战-爬取
- [Python]使用Scrapy爬虫框架简单爬取图片并保存本地
- scrapy爬虫实战(四)--------------登陆51job并使用cookies进行爬取
- python3爬虫 爬取图片,爬取新闻网站文章并保存到数据库
- Python3 爬虫实战(一)——爬取one每日一句,并保存到本地
- 使用Scrapy爬取笑话并存储到文件和MySQL
- scrapy爬取‘’西刺‘’代理
- scrapy爬取豆瓣电影top250并存储到mysql
- Python爬虫 爬取Google Play 100万个App的数据,并入库到数据库 scrapy框架
- python3爬虫爬取豆瓣电影并保存到sql serve数据库
- 5分钟掌握智联招聘网站爬取并保存到MongoDB数据库
- 一个大神开发者的使命感究竟…
- Centos中安装nginx
- Java中插入背景图片的方法
- js中检测是否输入正确名字
- 线性判别分析LDA的数学原理(一)
- 实战 使用scrapy 爬取代理 并保存到数据库
- assault
- 中国经济网、新浪网、网易、华龙网、东方网、长城网等媒体报道【汪国新委员:要防止养老机构“虐老”】
- IOS FMDB executeUpdate 删除字段是数字类型的不起作用
- CVPR 2016 论文集
- html5图片上传及kingeditor富文本编辑器的使用
- 杭电 2028 Lowest Common Multiple Plus
- Java前传
- css中单位 px、em 的区别