中文本体持久化到Mysql数据库的乱码问题

来源:互联网 发布:广州天翼模型店淘宝网 编辑:程序博客网 时间:2024/06/05 18:50

相信这应当不是个复杂的问题,但是困扰了我整整一个下午的时间,目前尚没有解决。

毕设第一阶段的工作大概可以说是完成了,进行了一些简单的测试,目前比较明显的问题是中文的支持。先写下程序中数据的流动过程,然后再细想到底是哪个环节出了问题:

  • 首先考虑的是Protege,我用它来创建本体,在斯坦福的ProtegeFAQ看到Protege为了便于共享,因此默认支持的UTF-8的编码方式,而非根据系统而转变。因此,这点无问题。同时,我也曾怀疑Protege在写本体文件时候采用的是系统默认编码方式而非UTF-8,但对生成的文件做了分析,确认是UTF-8无疑,到此,没有任何问题,觉得到此是可以PASS的。
  • 第二步,将本体文件读入内存,这里已经确定有一个问题,读取后的本体文件,中文显示乱码,我想大概的原因如下:在简体中文的WindowsXP状态下,Java的FileInputStream采用的GB2312方式编码,而我在这里调用的是Jena提供的API,OntModel.read(String url),这个url当然可以是一个file的,比如”file:sns.owl”。而Jena在提供的read方法在封装FileInputStream时候显然并不会去声明UTF-8编码方式,因此,这里可以采用的解决方式如下:

     

    FileInputStream file = new FileInputStream(”test.owl”);
    InputStreamReader in = new InputStreamReader(file, “UTF-8″);
    Model model = ModelFactory.createDefaultModel();
    model.read(in, null);
    in.close();

    显式的声明采用UTF-8编码读应该就可以了。这个问题不是重点。

  • 第三,将获得的本体文件加入一些实例然后一起存入数据库,其中实例中有些地方中出现了中文。这里有三个地方可能会出现问题,首先是java代码的编辑器,eclipse在简体中文WindowsXP下采用了非UTF-8编码方式,这个目前已经fix了,第二个地方是jdbc将数据写入数据库的时候,由于程序中采用的是Jena提供的DBConnection类封装了jdbc操作,这个地方目前没有测试,准备放弃掉这个封装做个测试。第三个地方就是数据库的编码了,我这里已经采用的mysql,已经将相关的数据库和表都设成UTF-8了,目前看来,可能出问题的似乎只有jdbc这块了。
  • 最后,要说的是,如果是在linux下开发的话,这一切是不是都没有问题了?

昨天的困扰我的问题,今天上午基本上算是解决了。要在简体中文windows xp中没有后顾之忧的处理中文本体基本上要做以下几个步骤:

  1. 建立本体的时候请采用UTF-8编码,假使是用protege生成的,较新的版本应当是没有问题,老版本的话默认编码可能不是UTF-8(而是根据操作系统设置),请务必确认下。
  2. 应当以UTF-8编码方式来编写Jave Code。无论是eclipse,还是普通的文本编辑器,都可以轻松的解决这个问题的。
  3. 存本体的数据库字符集应当是UTF-8。具体方法可以查询相关文档,不废话了。
  4. 最后,用jdbc连数据库(mysql)的时候 ,在DB_URL后需要加上”useUnicode=yes&characterEncoding=utf8″,否则,中文编码可能会无法识别,而以?的形式存入数据库。

转自:http://hi.baidu.com/ecgql/blog/item/534dc25459e7b75dd0090678.html

原创粉丝点击