python中的unicode
来源:互联网 发布:js contents 编辑:程序博客网 时间:2024/06/06 07:31
今天学Python自然语言处理,遇到处理中文分词各种乱码,下面总结一些经验。我用的是Python2.7。
首先看一行代码
print type("你好"),type(u"你好")
输出:<type'str'> <type 'unicode'>
1. unicode是一种编码标准,具体的实现标准可能是utf-8,utf-16,gbk ……
python 在内部使用两个字节来存储一个unicode,使用unicode对象而不是str的好处,就是unicode方便于跨平台。
你可以用如下两种方式定义一个unicode:
s1 = u"你好"s2 = unicode("你好", "utf-8")
一开始我一直以为unicode是一直编码方式。。。小白。。。
2. 同时我还遇到了这样的错误
UnicodeEncodeError: 'ascii' codec can'tencode characters in position 0-2: ordinal not in ran
解决办法:
import sysreload(sys)sys.setdefaultencoding('utf-8')
s = "你好"
s.encode('gbk')
因为没有指定defaultencoding,编译器其实在做s.decode('ascii').encode('gbk')
这样s.encode("utf-8")等价于s.decode(defaultencoding).encode("utf-8")。
3. 对于list中存的是unicode元素,直接print list输出的是unicode编码,可以加上import uniout解决。
以上便是今天遇到一些问题的总结,日后还会继续扩充,有误请指正,大家共同进步!
阅读全文
1 0
- Python中的Unicode
- python中的unicode
- python中的unicode编码
- python中的unicode
- python 中的unicode与字符串
- 19.unicode在python中的运用
- Python中的Unicode和中文问题
- Python Unicode字符串格式化中的一个陷阱
- Python 2.x 中的 String 与 Unicode
- python中的str与unicode处理方法
- Python 中的 str 与 unicode 编码处理
- Python中的str与unicode处理方法
- Python中的str与unicode处理方法
- Python中的str与unicode处理方法
- python中的编码问题unicode, encode, decode
- 关于python中的unicode字符串的使用
- Python中的str与unicode处理方法
- Python解析文件中的unicode字符
- 八皇后问题 java
- 【Javascript】三个常用输出语句
- 自主车辆相关资源
- Java String、StringBuffer和StringBuilder类的区别
- 一个疑惑的问题:QObject::killTimer: Timers cannot be stopped from another thread
- python中的unicode
- 静态库和动态库
- 查询时候自己加个自增列
- 百练之小数的进制转换
- FTP服务
- 嵌入式开发中DSP与FPGA的关系
- RN学习之我的第一个RN小例子
- 连续输入密码错误3次,第二天才能登录
- 【日记】再次起航 记录接下来的将要走过的路