汉日词典结构的研究(二)---常用的电子词典组织结构

来源:互联网 发布:香港理工大学就业知乎 编辑:程序博客网 时间:2024/05/18 02:41

作者:徐海昌

目前常用的电子词典结构有多种,但从其存储结构形式来看,可分为定长字段型,变长字段型和定长字段变长字段混合型三种;从数据组织形式来看,可分为无索引型、一级索引型、二级索引型和多级索引型等四种。
定长字段型词典结构适用于小规模词典,其优点是数据格式规整,计算机访问速度快,访问算法简单;其缺点是存储空间浪费严重,此种结构仅适用于实验系统或微型翻译系统,实用系统一般不采用此结构。
变长字段型词典结构适用范围较大,其主要优点就是可最大限度地节省空间;缺点是计算机访问速度慢,访问算法较复杂,访问得到的数据要进行整理后方可使用。
定长字段变长字段混合型词典结构实用较少,通常是词条信息中的第一个字段是词条,其长为定长,而其他字段是变长的,词条为定长是为了方便词条查找时的匹配,其他字段为变长则是为了节省空间。
最常用的词典结构是具有以词条(包括重复词条)为关键字的一级索引结构。这种词典存储方法被普遍使用和接受,通常被认为是比较好的词典组织结构。由于所有的词条都被有序地排列在索引文件中,任何一个词条的查询都可以通过“折半查找”来实现,但这就要求每个词条的索引信息是定长且有序。日文单词长度不一,有些长达15个字以上,为完整地存储任何一个单词,则必须设定所有词条字符串的长度都为最大单词长度,这样的索引,存储词条的空间会存在大量的冗余,造成存储空间的严重浪费。
        除此以外,还有后来人们提出的“以领头字为关键字的一级索引结构”。它的主要思想是索引中只存储关键字的开头字,利用开头字定位查找单词在词典中的位置,然后进行顺序查找。该方法大大减少了索引文件的存储空间,同时采用定长的存储结构,加快了查找速度。但由于其索引文件的查找结果只能定位到以某字开头的第一个关键字的位置,还需在词典文件中进行顺序查找,所以虽然其词典中的信息可以是无序的,但以某领头字开头的词条的排列却是有序的。针对日文词典,我们需要建立日文汉字、假名双重索引结构,那么势必要以日文汉字和假名分别进行信息登录,造成大量的信息冗余。
原创粉丝点击