国标码(GB2312)的自动生成

来源:互联网 发布:计算机2级c语言真题 编辑:程序博客网 时间:2024/05/04 06:15

       前面已提到,汉字是由两个字节构成的,每个字节占八位(8bits),那么每个汉字需要占十六位(16bits).而且由于中文字符的每个字节的最高位为1,则每个字节的ASCII码均大于127(27-1).这是中文处理问题的基础.本文研究的是国标码(GB2312-80),即信息交换用汉字编码字符集---基本集.国标码字符的两个字节的ASCII码都是161--254之间的整数.根据这些信息,我们可以很方便的处理涉及国标码的有关程序问题.

     我用java程序实现了由机器自动生成国标码.其基本思想是用循环产生每个字节的ASCII码,然后连接两个字节的字符串,再以文本形式输出到二进制文件中.代码如下:

import java.io.*;
public class GB2312_80 {
 public static void main(String args[]) throws IOException{
  File newDir=new File("d://java//test2");
  File newFile=new File(newDir,"GB2312_80.chr");
  if (!newFile.exists()){
   newFile.createNewFile();
  };
  RandomAccessFile newFileW=new RandomAccessFile(newFile,"rw");
  int i,j;
  
  for(i=161;i<255;i++)
  
  for (j=161;j<255;j++)
  {    
          String m1=Integer.toString(i,2);//将ASCII码值(十进制)转换为二进制字符串
          String n1=Integer.toString(j, 2);
          String x=m1+n1;//连接两个字符串使之变为16位的字符串(即两个字节)
          long x1=Long.parseLong(x, 2);//将字符串转换为长整型数据
          newFileW.writeLong(x1);//输出字符.
             
  
   }

 
  
 }

}