scrapy处理个中文本格式HTML,XML,CSV
来源:互联网 发布:2016黑马java百度网盘 编辑:程序博客网 时间:2024/06/07 06:10
网页
#创建项目 $scrapy startproject mypjt#基于basic模板创建名为xxx的爬虫文件$ scrapy genspider -t basic xxx sina.com.cn
html格式
class CaoItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() urlname = scrapy.Field() urlkey = scrapy.Field() urlcr = scrapy.Field() urladd = scrapy.Field()# 可以从命令行指定输入的地址class AbcSpider(scrapy.Spider): name = 'abc' start_urls = [ 'http://python.jobbole.com/', 'http://blog.csdn.net/ ] def __init__(self,myurl=None,*args,**kwargs): super(AbcSpider, self).__init__(*args,**kwargs) print ("要爬取的网址为: %s" %myurl) self.start_urls=["%s" %myurl] def parse(self,response): item = CaoItem() item['urlname'] = response.xpath('/html/head/title/text()').extract()$ scrapy crawl abc --nolog -a myurl="http://mp3.baidu.com"要爬取的网址为: http://mp3.baidu.com百度音乐-听到极致
XMLFeedSpider
class MyxmlItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() link = scrapy.Field() author = scrapy.Field()class MycsvspiderSpider(CSVFeedSpider): name = 'mycsvspider' allowed_domains = ['iqianyue.com'] start_urls = ['这里地址自行定义,找一个xml文档,有上述字段'] headers = ['name','sex','add','email'] # 定义间隔符 delimiter = ',' def parse_row(self, response, row): i = MycsvItem() i['name'] = row['name'].encode() i['sex'] = row['sex'].encode() print("名字是:") print (i['name']) print ("性别是:") print (i['sex']) print ('------------') return i
CSVFeedSpider
class MycsvItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() name = scrapy.Field() sex = scrapy.Field()class MycsvspiderSpider(CSVFeedSpider): name = 'mycsvspider' allowed_domains = ['iqianyue.com'] start_urls = ['自定义一个CSV文档用逗号分割的'] headers = ['name','sex','add','email'] # 定义间隔符 delimiter = ',' def parse_row(self, response, row): i = MycsvItem() i['name'] = row['name'].encode() i['sex'] = row['sex'].encode() print("名字是:") print (i['name']) print ("性别是:") print (i['sex']) print ('------------') return i$ scrapy craw1 mycsvspider --nolog
阅读全文
0 0
- scrapy处理个中文本格式HTML,XML,CSV
- Qt处理HTML格式文本的方法
- 将文本格式的文章转换为html/xml格式文本的功能封装到Javabean
- HTML(格式,文本标签)
- HTML文本格式
- HTML(格式,文本标签)
- 关于CSV文本格式的“乱码”问题
- 单个爬虫文件使用scrapy保存为csv格式
- 将文本格式的文章转换为html/xml格式文本的功能封装到Javabean (转 cm4ever)
- java处理html文本
- PHP百万级数据导出csv格式OR文本格式
- 通过XML格式,读取CSV文件
- xml文本处理
- xml为html格式
- php 发送html格式文本
- 试一下HTML格式文本
- HTML段落、文本格式、样式
- 处理CSV格式行的算法
- tablayout
- 第九周 【项目2
- java Mysql 存储emoji表情解决方案
- RecycleView实现多条目
- web 视频播放插件兼容ie
- scrapy处理个中文本格式HTML,XML,CSV
- MUI H5+常见控件的使用之单选按钮
- 第9周项目2 二叉树遍历的递归算法
- 【Codeforces837G】Functions On The Segments
- STM32外设结构体定义和时钟初始化语句顺序导致编译
- 遇见Lost connection to MySQL server at 'reading initial communication packet',system error:0的解决办法
- mybatis oracle获取插入的主键
- 数据结构第九周项目一-二叉树算法库
- css字符编码