Python中文乱码

来源:互联网 发布:网络销售话术流程 编辑:程序博客网 时间:2024/06/10 05:52

在python中字符串默认是Unicode编码,因此在编码转换时需要用Unicode为中间编码,例如:str.decode('utf-8'),表示将utf8编码的字符串str转换成Unicode编码;str.encode('utf-8'),表示将Unicode编码的字符串str转换成utf8编码。

当我们抓取网页信息时,有时候因为编码不同,会出现乱码的问题,这时最简单的解决方法就是先把内容转换成Unicode,再转换成展示所需的语言,例如:网页编码是UTF-8
type = sys.getfilesystemencoding()
content = content.decode('UTF-8').encode(type)

0 0