NET自动字符编码识别程序库 NChardet
来源:互联网 发布:电脑免费相册视频软件 编辑:程序博客网 时间:2024/05/17 20:31
本文转自 http://www.chenjiliang.com/Article/View.aspx?ArticleID=2510
NET自动字符编码识别程序库 NChardet
分类 .NetFramework 2007-5-26 7:20:12 浏览 842 回复 0 编辑 删除静态 删除 隐藏侧边栏 转自 hhh.
什么是NChardet
NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测。
NChardet是如何工作的
NChardet通过逐个比较输入字符来猜测编码;由于是猜测,所以可能会有不能完全识别的情况;如果输入字符不能确定正确的编码,那么NChardet会给出一组可能的编码值。
如何使用NChardet
要使用NChardet来探测编码,需要进行如下步骤。
1、使用制定的语言线索来构造Detector类的实例对象。
2、用实现了ICharsetDetectionObserver接口的对象作为参数来调用Detector类的Init方法。
3、传入要探测的字符流进行编码探测。
4、调用Detector类的DataEnd方法。
5、得到结果或可能的结果集。
语言线索是一个整数,可用的语言线索有如下几个:
1. Japanese
2. Chinese
3. Simplified Chinese
4. Traditional Chinese
5. Korean
6. Dont know (默认)
ICharsetDetectionObserver接口只有一个Notify方法,当NChardet引擎认为自己已经探测出正确的编码时,它就会调用这个Notify方法,用户程序可以从这个Nodify方法中得到通知(重写ICharsetDetectionObserver接口的Notify实现)。
代码实例:
获得NChardet
NChardet Library (.NET 1.1 and .NET 2.0 ,DLL)
http://files.cnblogs.com/hhh/nchardet.zip
NChardet Source Code (开发环境为SharpDevelop 2.0)
http://files.cnblogs.com/hhh/nchardet_source.zip
版权说明
本程序移植自jchardet,版权说明请参照jchardet,C#代码采用BSD授权。
相关链接
mozilla chardet
http://www.mozilla.org/projects/intl/chardet.html
mozilla chardet 下载
http://lxr.mozilla.org/mozilla/source/intl/chardet/
jchardet
http://jchardet.sourceforge.net/
SharpDevelop
http://www.icsharpcode.net/OpenSource/SD/
字符集编码的自动识别
jchardet http://hedong.3322.org/archives/000361.html
NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,chardet的java版实现,可实现对给定字符流的编码探测。
NChardet是如何工作的
NChardet通过逐个比较输入字符来猜测编码;由于是猜测,所以可能会有不能完全识别的情况;如果输入字符不能确定正确的编码,那么NChardet会给出一组可能的编码值。
如何使用NChardet
要使用NChardet来探测编码,需要进行如下步骤。
1、使用制定的语言线索来构造Detector类的实例对象。
2、用实现了ICharsetDetectionObserver接口的对象作为参数来调用Detector类的Init方法。
3、传入要探测的字符流进行编码探测。
4、调用Detector类的DataEnd方法。
5、得到结果或可能的结果集。
语言线索是一个整数,可用的语言线索有如下几个:
1. Japanese
2. Chinese
3. Simplified Chinese
4. Traditional Chinese
5. Korean
6. Dont know (默认)
ICharsetDetectionObserver接口只有一个Notify方法,当NChardet引擎认为自己已经探测出正确的编码时,它就会调用这个Notify方法,用户程序可以从这个Nodify方法中得到通知(重写ICharsetDetectionObserver接口的Notify实现)。
代码实例:
复制 保存
//实现ICharsetDetectionObserver接口public class MyCharsetDetectionObserver : NChardet.ICharsetDetectionObserver{ public string Charset = null; public void Notify(string charset) { Charset = charset; }} int lang = 2;////用指定的语参数实例化DetectorDetector det = new Detector(lang);//初始化MyCharsetDetectionObserver cdo = new MyCharsetDetectionObserver();det.Init(cdo);//输入字符流Uri url = new Uri("http://cn.yahoo.com");HttpWebRequest request = (HttpWebRequest) WebRequest.Create(url);HttpWebResponse response = (HttpWebResponse) request.GetResponse();Stream stream = response.GetResponseStream();byte[] buf = new byte[1024];int len;bool done = false;bool isAscii = true;while ((len = stream.Read(buf, 0, buf.Length)) != 0){ // 探测是否为Ascii编码 if (isAscii) isAscii = det.isAscii(buf, len); // 如果不是Ascii编码,并且编码未确定,则继续探测 if (!isAscii && !done) done = det.DoIt(buf, len, false);}stream.Close();stream.Dispose();//调用DatEnd方法,//如果引擎认为已经探测出了正确的编码,//则会在此时调用ICharsetDetectionObserver的Notify方法det.DataEnd();if (isAscii){ Console.WriteLine("CHARSET = ASCII"); found = true;}else if (cdo.Charset != null){ Console.WriteLine("CHARSET = {0}", cdo.Charset); found = true;}if (!found){ string[] prob = det.getProbableCharsets(); for (int i = 0; i < prob.Length; i++) { Console.WriteLine("Probable Charset = " + prob[i]); }}Console.ReadLine();
获得NChardet
NChardet Library (.NET 1.1 and .NET 2.0 ,DLL)
http://files.cnblogs.com/hhh/nchardet.zip
NChardet Source Code (开发环境为SharpDevelop 2.0)
http://files.cnblogs.com/hhh/nchardet_source.zip
版权说明
本程序移植自jchardet,版权说明请参照jchardet,C#代码采用BSD授权。
相关链接
mozilla chardet
http://www.mozilla.org/projects/intl/chardet.html
mozilla chardet 下载
http://lxr.mozilla.org/mozilla/source/intl/chardet/
jchardet
http://jchardet.sourceforge.net/
SharpDevelop
http://www.icsharpcode.net/OpenSource/SD/
字符集编码的自动识别
jchardet http://hedong.3322.org/archives/000361.html
- NET自动字符编码识别程序库 NChardet
- .NET自动字符编码识别程序库 NChardet
- .NET自动字符编码识别程序库 NChardet
- .NET自动字符编码识别程序库 NChardet
- .NET自动字符编码识别程序库 NChardet 什么是NChardet NChardet是mozilla自动字符编码识别程序库chardet的.NET实现,它移植自jchardet,ch
- 如何识别字符编码
- Flex中字符编码识别
- Flex中字符编码识别
- java 字符编码 解码 转码 识别编码
- checkenc - 自动文本编码识别
- Unicode编码识别HTML中的转义字符------字符解析表
- [VB.NET]如何识别文本文件的编码?
- ajax代理程序,自动判断字符编码
- ajax代理程序自动判断字符编码
- java自动探测文件的字符编码
- Java自动探测文件的字符编码
- Net与字符编码(理论篇)
- ASP.NET页面的字符编码设置
- IIS 未能创建 Mutex 问题的解决
- PHP array_merge() 函数 与 + 的区别
- Hibernate+Struts开发web程序
- PHP array_combine() 函数
- 约瑟夫环
- NET自动字符编码识别程序库 NChardet
- Encache
- jsp中遇到的异常笔记
- 让法律更“胜任”现实期待(组图)
- 回文数
- Android中电池信息(Battery information)的取得
- 新的开始
- 新的一周,新的要求
- javabean相关