Python关于list里面的unicode编码
来源:互联网 发布:mac版matlab怎么样 编辑:程序博客网 时间:2024/05/17 21:56
利用Python2.7结巴分词对文本分词之后存进list列表里面
import jiebaseg_list = jieba.cut("网络,让我们之间的距离变的如此之近,也如此遥远。")a = [i for i in seg_list]a = str(a).replace('u\'','\'') s = a.decode("unicode-escape") print s
此时seg_list是一个生成器generator。如果不存进列表直接一次性打印的话,需要添加print ' '.join(seg_list)。
存进列表之后如果只是到了第一个a就输出的话,结果如下:
[u'\u7f51\u7edc', u'\uff0c', u'\u8ba9', u'\u6211\u4eec', ...]
此时如果直接索引的话,打印出来是正常中文,如print a[0]。
为了将list里面的字符串更换为中文,需要先将前面的u替换为空,之后利用decode函数解码,结果如下:
['网络', '让', '我们', '之间', '的', '距离', '变', '的', '如此', '之近', ',', '也', '同时', '让', '我们', '变', '的', '如此', '遥远', '。']
此时list全部变成unicode格式。如果文本包含标点符号也能分得出来,例如,“清峪路260-278号(双)、258弄33、35号”,结果如下:
['清峪路', '260', '-', '278', '号', '(', '双', ')', '、', '258', '弄', '33', '、', '35', '号']
结巴分词如果需要去掉标点符号,则在jieba.cut加上参数:
seg_list = jieba.cut("清峪路260-278号(双)、258弄33、35号",cut_all=True)
0 0
- Python关于list里面的unicode编码
- python 的unicode编码
- python里面的list
- 关于Python的编码、乱码以及Unicode的一些研究
- 关于Unicode编码的闲谈
- 关于Unicode编码的闲谈
- 关于Unicode编码的说明
- 关于python unicode的实验
- 关于python中json load出来编码为unicode的问题的解决
- 关于python中json load出来编码为unicode的问题的解决
- python遇到‘\u’开头的unicode编码
- python遇到‘\u’开头的unicode编码
- python遇到‘\u’开头的unicode编码
- python unicode 编码的中文输出
- 关于编码、unicode、utf-8的讨论
- 关于编码、unicode、utf-8的讨论
- 关于编码、unicode、utf-8的讨论
- 关于python里面的对齐
- SQLite事务管理
- zeromq源码分析笔记之无锁队列ypipe_t
- 字符串长度计算
- 数据结构-Hash总结(二)
- 存储过程范例
- Python关于list里面的unicode编码
- cuda性能测试
- VMware 12 专业版永久许可证密钥
- Laravel关于IOC和DI的讲解
- 四周实现爬虫系统(1)-抓取tripadvisor猫途鹰网站数据信息
- codevs 2744 养鱼喂妹纸(二分+贪心)
- 使用json及异常处理(ava.lang.NoClassDefFoundError: net/sf/json/JSONArray)
- 面向对象
- Kylin源码 二次开发