python学习笔记(4):字符串及编码问题

来源:互联网 发布:淘宝短信营销作用大吗 编辑:程序博客网 时间:2024/06/16 10:18

在计算机语言中,通常只认识英文字母和数字,但不同国家需要对自己的语言进行设置,使得计算机也能够认识,这个时候,Unicode也就应运而生。Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。

Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。字母A用ASCII编码是十进制的65,二进制的01000001;
字符0用ASCII编码是十进制的48,二进制的00110000,注意符’0’和整数0是不同的;汉字中已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101。你可以猜测,如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是00000000 01000001。

如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

python对Unicode的支持
因为python比Unicode发布的更早,在早期的python中只支持ASCII编码,python提供了函数,将字母和对应的ASCII码相互对应和转换。

这里写图片描述

python在后续发布的版本中加入了对Unicode的支持(毕竟人家这么火,不支持不以平民愤啊!),以Unicode表示的字符用 u’…’表示,如下例:

这里写图片描述

把 u’xxx’转化成UTF-8编码的’xxx’,可以使用encode(‘utf-8’):

这里写图片描述

由于这块平时涉及的不多,所以不再赘述,但python的code通常也是一个文件,当你在code中要键入中文的时候,就必须保存为utf-8的格式,通常在文件的开头写上如下两行:

#!/usr/bin/env python# -*- coding: utf-8 -*-

第一行识告诉linux或者OS X系统,这是一个python的可执行程序,windows用户请自行忽略,第二行是告诉python解释器,按照utf-8的标准读取code。

格式化
最后一个常见的问题是如何输出格式化的字符串。我们经常会输出类似’亲爱的xxx你好!你xx月的话费是xx,余额是xx’之类的字符串,而xxx的内容都是根据变量变化的,所以,需要一种简便的格式化字符串的方式。

在python中,采用的格式化方法基本和c是一致的,用%实现,如下列:

这里写图片描述

%运算符是格式化字符串的,常见的占位符如下:
%d 整数
%f 浮点数
%s 字符串
%x 十六进制整数
其中,格式化整数和浮点数还可以指定是否补0和整数于小数的位数,如上例。

0 0
原创粉丝点击