关于切词程序的一点启发

来源:互联网 发布:淘宝丝芙兰旗舰店 编辑:程序博客网 时间:2024/04/29 02:22
文本切词是中文信息处理的基础,除了英文以外大多和语言如中文、韩文、日文都是需要切词的。由于不同的编码形式给我们的切词带来了不便,ANS码是一个字符一个字符,而GB2312等都是两个字节表示一个字符。一般一个字符是否是多字节编码可以通过最高位来判断,如果最高位是0则是ANS码,否则多字节编码。通常人们进行切词都是将待切分文本转换成Unicode再进行切分,在实际中我经过实验这种方法其实不是很好,效率比较低。在实际中可不必将词表中的词条的切分文本转换成unicode,因为在转换过程中浪费大量的CPU时间,在词表上建立索引时也不必根据Unicode去建,直接根据字符的内码建立索引。在切词过程中不过字符移动可根据自己的实际情况两字节移动或者单字节移动。