算法分析与设计的作业：“基于FMM的分词系统”

来源：互联网发布：关于程序员的纪录片编辑：程序博客网时间：2024/04/29 19:13

准备要截课了，于是乎按老师的要求做了一个简单的分词程序，程序主要是针对中文分词的。断断续续做了几天，感觉做得很一般，仅仅是完成了一些基本的功能。

采用机械分词中全切分的方法将句子进行切分，具体的描述看下边的文档：

本程序分为两个部分来实现：

一、从海量数据中生成我们的数据字典

我们使用一下这样的数据结构来存储我们收集到的数据信息：

// 句子的内容：出现次数，内容，类型

typedef struct _WORD_INFORMATION{ int nCount; string strWord; char szType; struct _WORD_INFORMATION *pNext;}WORD_INFORMATION, *P_WORD_INFORMATION;// 开散列结构typedef struct _OPEN_HASH{ int nMod; P_WORD_INFORMATION pNext;}OPEN_HASH, *P_OPEN_HASH;

为了提高程序快速收集和查询字典信息，这里我采用了开散列这样的数据结构，同时，为了避免在存储不同的信息的时候可能会造成信息冲突的情况，使用了拉链法处理冲突的情况。

具体的做法是：从指定的数据文件中收集汉字的相关信息（出现次数和内容），然后将其统计的结果保存到另一个文件中，留给后边分词使用。

生成字典文件的流程图如下：