UTF-8与UTF-8 BOM
来源:互联网 发布:ubuntu matlab2015b 编辑:程序博客网 时间:2024/06/05 14:33
导读:
如果将XML文件存为UTF-8 BOM格式,如果使用fileStream读取并转换为XML会报错"The markup in the document following the root element must be well-formed."。UTF-8签名(UTF-8 signature)也叫做BOM(Byte Order Mark),是UTF编码方案里用于标识编码的标准标记。如果多个文件设置了签名,在二进制流中就会包含多个UTF-8签名,也就是导致XML转换失败的"root element must be well-formed"原因。
在UCS 编码中有一个叫做”ZERO WIDTH NO-BREAK SPACE”的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输 字符”ZERO WIDTH NO-BREAK SPACE”。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little- Endian的。因此字符”ZERO WIDTH NO-BREAK SPACE”又被称作BOM。所以还有一个解决思路就是在读取到该字符时,删除该字符。
当然,最简单的办法是使用文本编辑器,保存为UTF-8无BOM格式。"NotePad++"编辑器可以选择"格式-字符编码转换为UTF-8码(无BOM)"。
本文转自
http://www.moorwind.com/read.php?229
如果将XML文件存为UTF-8 BOM格式,如果使用fileStream读取并转换为XML会报错"The markup in the document following the root element must be well-formed."。UTF-8签名(UTF-8 signature)也叫做BOM(Byte Order Mark),是UTF编码方案里用于标识编码的标准标记。如果多个文件设置了签名,在二进制流中就会包含多个UTF-8签名,也就是导致XML转换失败的"root element must be well-formed"原因。
在UCS 编码中有一个叫做”ZERO WIDTH NO-BREAK SPACE”的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输 字符”ZERO WIDTH NO-BREAK SPACE”。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little- Endian的。因此字符”ZERO WIDTH NO-BREAK SPACE”又被称作BOM。所以还有一个解决思路就是在读取到该字符时,删除该字符。
当然,最简单的办法是使用文本编辑器,保存为UTF-8无BOM格式。"NotePad++"编辑器可以选择"格式-字符编码转换为UTF-8码(无BOM)"。
本文转自
http://www.moorwind.com/read.php?229
- UTF-8与UTF-8 BOM
- UTF-8与UTF-8 without BOM
- UTF-8与UTF-8 BOM
- UTF-8有BOM与无BOM
- UTF-8 NO BOM & BOM
- UTF-8 BOM
- UTF-8,无BOM
- UTF-8 BOM
- UTF-8去掉BOM
- UTF-8 BOM
- utf-8与utf-8(无BOM)的区别
- utf-8与utf-8(无BOM)的区别
- 关于UTF-8与UTF-8+BOM的问题
- 【转载】utf-8与utf-8(无BOM)的区别
- utf-8与utf-8无BOM的区别
- UTF-8与UTF-8无BOM的区别
- utf-8与utf-8+bom的区别
- UTF-8与UTF-8(无bom)的区别
- 结束之即才是正式的开始
- JSON认识
- 为何“三一八惨案”使段琪瑞垮台?
- SqlServer动态执行SQL语句sp_executesql、Exec
- static_cast、dynamic_cast、reinterpret_cast、和const_cast
- UTF-8与UTF-8 BOM
- 关于类型转换
- 一只手的经济学家和User家族的六兄弟
- usb信息查看工具
- 夜语凝思之反思篇
- Linux内核体系结构
- 夜语凝思之回忆篇
- 自制token --> provent 重复提交 from Refresh && Undo
- sequence与会话有关--oracle一个比较烂的特性