C#怎么判断一个文件的编码格式是UTF-8 without BOM的啊

来源:互联网 发布:网络电影市场规模 编辑:程序博客网 时间:2024/06/14 15:49


文本文件的开头头三个字节存放编码格式,这三个字节就叫做 BOM。

当头部开始的两个字节为 0xff 0xfe 0x41 时,是Unicode的小尾编码;
当头部的两个字节为        0xfe 0xff 0x00 时,是Unicode的大尾编码;
当头部两个字节为            0xef 0xbb 0xbf 时,是Unicode的UTF-8编码;
当它不为这些时,则是ANSI编码。

判断是ANSI还是无BOM的UTF-8还得多一步,


http://blog.csdn.net/ybhjx/article/details/52205831

C#写文件时指定是否有BOM:1)下面的代码是UTF-8 without BOM:var utf8WithoutBom = new System.Text.UTF8Encoding(false);using (var sink = new StreamWriter("Foobar.txt", false, utf8WithoutBom)){sink.WriteLine("...");}2)下面是C#在写文件时指定BOM头的代码:var utf8WithBom = new System.Text.UTF8Encoding(true);  // 用true来指定包含bomStreamWriter swr = null;try{    swr = new StreamWriter("okbase.txt", false, utf8WithBom);    swr.Write("hello okbase.net!");}catch(Exception e){}finally{    if (swr != null)    {        swr.Close();        swr.Dispose();    }}


0 0
原创粉丝点击