gbk汉字拼音码形成手记

来源:互联网 发布:淘宝有没有以旧换新 编辑:程序博客网 时间:2024/05/14 10:32

在网上找了很久也没有找到全的汉字拼音码表,没有办法,自己搞一个吧,不停的google后,找到了几篇文章,组合后终于搞定,不敢独享啊。

 

1、下载ms 全拼输入法,找到winpy.mb文件,这就使字库文件

2、使用xp自带的输入法生成器导出字库到文本文件,path:C:/Program Files/Windows NT/Accessories/imegen.exe

3、选中“逆转换”,打开winpy.mb,导出winpy.txt

4、找到[text]关键字,删除该关键字及之前行

5、编写一段代码解析成csv文件,记住,有多音字,多个拼音以空格分隔

 

c# 代码:

 

string[] lines  = File.ReadAllLines(@"E:/winpy.txt", Encoding.Unicode);
            FileStream fs = File.OpenWrite(@"E:/winpy.csv");
            StreamWriter sw = new StreamWriter(fs, Encoding.UTF8);
            foreach (string line in lines)
            {
               char c =  line.Substring(1, 1).ToCharArray()[0];
               int i = Convert.ToInt32(c);
               if ((i >= 65 && i <= 90)
                   || (i >= 97 && i <= 122))
               {
                   string cword = line.Substring(0, 1);
                   string epinyin = line.Substring(1, line.Length - 1).TrimEnd();
                   string[] ary = epinyin.Split(new char[] { ' '});
                   foreach (string ep in ary)
                   {
                       sw.WriteLine(cword + "," + ep);
                   }
               }               
            }
            sw.Flush();
            sw.Close();
            fs.Close();

 

试试吧,总共34900个。