Python读取UTF-16

来源:互联网 发布:虚拟光驱软件哪个好 编辑:程序博客网 时间:2024/06/03 05:01

UTF-16的编码模式

UTF-16的大尾序和小尾序储存形式都在用。一般来说,以Macintosh制作或储存的文字使用大尾序格式,以Microsoft或Linux制作或储存的文字使用小尾序格式。
为了弄清楚UTF-16文件的大小尾序,在UTF-16文件的开首,都会放置一个U+FEFF字符作为Byte Order Mark(UTF-16LE以FF FE代表,UTF-16BE以FE FF代表),以显示这个文字档案是以UTF-16编码,其中U+FEFF字符在UNICODE中代表的意义是ZERO WIDTH NO-BREAK SPACE,顾名思义,它是个没有宽度也没有断字的空白。

import codecs
codecs.open(filename, mode, encoding)

大多数utf-16不会在开首标明大小尾序。所以用 utf-16-le,utf-16-be都试一试。

原创粉丝点击