Scrapy研究探索(四)——中文输出与中文保存
来源:互联网 发布:ubuntu查看分区 编辑:程序博客网 时间:2024/05/17 08:42
提取网页中中文并输出或者是保存时经常会出现一个问题是显示的是中文对应的unicode编码而非中文本身,这里讲述解决这种问题的方法。
一. 针对交互输出。
如以下代码:
title = site.xpath('a/text()').extract()link = site.xpath('a/@href').extract()desc = site.xpath('a/@title').extract()
print title
此时title的输出可能是类似于如下:
\xe4\xbd\xbf\xe7\x94\xa8
这是title对应中文的unicode格式。
将其转换为utf-8在输出即可:
title = site.xpath('a/text()').extract()link = site.xpath('a/@href').extract()desc = site.xpath('a/@title').extract()print titlefor t in title: print t.encode('utf-8')
这时两次输出的前一次为unicode码,而后一次为中文。
注意:
encode()只针对str数据结构,如果不是,可以先转换为str。上面由于得到的title为list类型,所以转换如上。
二. 针对存储。
关于存储,可查看在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中在w3school和pipelines中使用的方式达到保存中文的效果。
0 0
- Scrapy研究探索(四)——中文输出与中文保存
- Scrapy研究探索(四)——中文输出与中文保存
- Scrapy中文输出与中文保存
- Scrapy研究探索(三)——Scrapy核心架构与代码运行分析
- Scrapy研究探索(三)——Scrapy核心架构与代码运行分析
- Scrapy研究探索(一)——基础入门
- Scrapy研究探索(一)——基础入门
- Scrapy源码分析-Item Pipeline中文文档(四)
- scrapy抓取中文输出乱码解决方案
- scrapy输出中文字符到文件
- Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
- Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
- Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
- Scrapy研究探索(六)——自动爬取网页之II(CrawlSpider)
- scrapy研究探索(二)——爬w3school.com.cn
- Scrapy研究探索(七)——如何防止被ban之策略大集合
- Scrapy研究探索(七)——如何防止被ban之策略大集合
- scrapy研究探索(二)——爬w3school.com.cn
- 缮佬房垢汗瓜瓮瞧成瘸乐衔铝右垢
- (未完)linux相关网站
- UML用例图总结
- 【转】关于int范围中负数最小值的绝对值比整数最大值大初学C,问题源自:为什么C中的int类型(16位)的下溢下限为-32768而上溢上限却是32767。 首先说吧,32767很容易理解,32767=
- C语言\b转义字符
- Scrapy研究探索(四)——中文输出与中文保存
- 黑马程序员--Java面向对象——(其他对象)
- 一款jquery智能提示邮箱列表特效
- 驱动中bus,devices,driver注册的先后顺序
- VS2010中 C++创建DLL图解
- xfce下thunar启动慢解决
- java 继承 及 初始化顺序
- JS获取当前日期时间并定时刷新
- BAT涉足电影业若只是报玩票心态,入局或难长久