StarDict格式辞典单词列表提取工具

来源:互联网 发布:淘宝客服子账号分流 编辑:程序博客网 时间:2024/05/24 03:45

 

今天一个朋友做了个Emacs的单词补全,特别好用,但是他自带的词库单词比较少,我就做了个单词提取工具,可以提取StarDict格式的辞典库。

StarDict的单词都存储在dictname.idx中,格式为:

每个单词后面跟着一个'/0'作为单词结束标志,再往后跟着8个字节用来描述单词在字典里的偏移和解释长度。

比如第一个单词a:

61 00 00 00 00 00 00 00 03 E4

我们需要的只是单词的字面值,后面的8个字节跳过就可以了。

代码如下:

 
调用的时候很简单,比如我们需要提取cdict-gb.idx,可以用:
 
这样就得到单词列表了,每个单词占一行。

 

原创粉丝点击