Unicode字符串

来源：互联网发布：137 138端口免流教程编辑：程序博客网时间：2024/05/02 02:00

计算机只能处理数字，要处理文本，就必须先把文本转化成数字处理。最早的计算机在设计时采用8bit为1个字节，所以，一个字节能表示的最大整数是255（11111111），0~255被用来表示一些英文字母、数字、符号，这就是ASCII编码。

要表示中文，一个字节肯定是不够的，至少需要两个字节，中国制定了GB2312编码，其他国家也制定了一些编码。

为了将这些编码统一起来，Unicode编码应运而生。

但Python产生比unicode早，早期Python不支持unicode，后来对unicode做了支持，要表示中文，要在字符串前加:u（不影响字符串其他的定义规则，比如多行字符串和raw字符串）

例如：u'中文'

注意：如果中文字符串在Python环境下出现了UnicodeDecodeError，这是因为.py文件保存的格式有问题，可以在第一行添加注释：

#-*- coding: utf-8 -*-

目的是告诉解释器以utf-8的格式读取源文件，保存.py文件时应该选择utf-8编码。

0 0