码位(code position/point)Unicode 编码与 Python 2/3 编码兼容性问题

来源:互联网 发布:怎么查看淘宝店家电话 编辑:程序博客网 时间:2024/05/16 18:24

Unicode HOWTO

0. 码位(code position/point)

一个码位由某个数值表示,全部码位共同构成其码值空间(code space)。

  • ASCII,0~7Fhex(128)
  • 拓展 ASCII,0~FFhex(256)
  • Unicode,0~10FFFFhex
    • 1, 114, 112,17×216(17 个平面

2. python 下的编码

  • bytes.decode() str.encode()

3. UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0x9c

比如在读取 œ 时,便会造成 UnicodeDecodeError。

>> b'\x9c'.decode('cp1252')'œ'

原创粉丝点击