Python 字符串和编码

来源:互联网 发布:美的人工智能研究院 编辑:程序博客网 时间:2024/05/16 14:22

一、字符串

字符串是一种数据类型str,但字符串的编码就是个比较特殊的问题了。

编码即信息传递的时候为了方便创建的,例如,打仗时,击鼓进军,鸣金收兵等。士兵只需要了解击鼓和鸣金的含义就能做出相关的行为。


因为计算机只能处理数字,而我们的输入的字符和文字,就必须要要转换为数字才行,为此在计算机发明时美国人创造了ASCII编码表。ASCII编码表只含有27个英文字母和数字及部分标点符号。

最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。

而中文至少需要两个字节,所以靠ASCII编码表是不可能实现的,为此中国定制了GB2312编码,将中文编进去。但世界有这么多国家,你你一套我一套,当文本识别不了的时候就会出现我们常见的乱码现象。

这时Unicode应运而生,它将所有的语言统一了进去,但是他是两个字节表示一个字符,遇到生僻字时就需要4个。

现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。

所以当遇到英文时Unicode是不是又浪费了一半的存储空间,这时,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间。

二、输出格式化字符串:

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

 

在许多编程语言中都包含有格式化字符串的功能,比如C和Fortran语言中的格式化输入输出。Python中内置有对字符串进行格式化的操作%

 

模板

格式化字符串时,Python使用一个字符串作为模板。模板中有格式符,这些格式符为真实值预留位置,并说明真实数值应该呈现的格式。Python用一个tuple将多个值传递给模板,每个值对应一个格式符。

比如下面的例子:

print("I'm %s. I'm %d year old" % ('Vamei', 99))

上面的例子中,

"I'm %s. I'm %d year old"为我们的模板。%s为第一个格式符,表示一个字符串。%d为第二个格式符,表示一个整数。('Vamei', 99)的两个元素'Vamei'99为替换%s%d的真实值。
在模板和tuple之间,有一个%号分隔,它代表了格式化操作

整个"I'm %s. I'm %d year old" % ('Vamei', 99)实际上构成一个字符串表达式。我们可以像一个正常的字符串那样,将它赋值给某个变量。比如:

a = "I'm %s. I'm %d year old" % ('Vamei', 99)print(a)

 

我们还可以用词典来传递真实值。如下:

print("I'm %(name)s. I'm %(age)d year old" % {'name':'Vamei', 'age':99})

可以看到,我们对两个格式符进行了命名。命名使用()括起来。每个命名对应词典的一个key。

 

格式符

格式符为真实值预留位置,并控制显示的格式。格式符可以包含有一个类型码,用以控制显示的类型,如下:

%s    字符串 (采用str()的显示)

%r    字符串 (采用repr()的显示)

%c    单个字符

%b    二进制整数

%d    十进制整数

%i    十进制整数

%o    八进制整数

%x    十六进制整数

%e    指数 (基底写为e)

%E    指数 (基底写为E)

%f    浮点数

%F    浮点数,与上相同

%g    指数(e)或浮点数 (根据显示长度)

%G    指数(E)或浮点数 (根据显示长度)

 

%%    字符"%"

 

可以用如下的方式,对格式进行进一步的控制:

%[(name)][flags][width].[precision]typecode

(name)命名

flags可以有+,-,' '或0。+表示右对齐。-表示左对齐。' '为一个空格,表示在正数的左侧填充一个空格,从而与负数对齐。0表示使用0填充

width表示显示宽度

precision表示小数点后精度

 

比如:

print("%+10x" % 10)print("%04d" % 5)print("%6.3f" % 2.3)

 

上面的width, precision为两个整数。我们可以利用*,来动态代入这两个量。比如:

print("%.*f" % (4, 1.2))

Python实际上用4来替换*。所以实际的模板为"%.4f"。

 

总结

Python中内置的%操作符可用于格式化字符串操作,控制字符串的呈现格式。Python中还有其他的格式化字符串的方式,但%操作符的使用是最方便的。



0 0
原创粉丝点击