使用nlpir分词工具时字符编码问题

来源：互联网发布：防排烟设计计算软件编辑：程序博客网时间：2024/06/06 18:29

在进行中文自然语言处理时，首先要注意字符编码的转换问题。我在使用nlpir分词工具时遇到如下问题：

句子1：u'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。'

句子2：'不断深化中缅睦邻友好和互利合作，符合两国和两国人民的根本利益。'

两个句子的区别就在于句子1是解码后的unicode形式，句子2是utf-8编码，nlpir工具支持多种编码方式，但并不支持解码后的unicode形式，同样调用nlpir.seg()命令，得出不同结果：

句子1：[('\xe4\xb8\x8d\xe6\x96\xad', 'd'), ('\xe6\xb7\xb1\xe5\x8c\x96', 'v'), ('\xe4\xb8\xad', 'b'), ('\xe7\xbc\x85', 'b'), ('\xe7\x9d\xa6\xe9\x82\xbb', 'n'), ('\xe5\x8f\x8b', 'ag'), ('\xe9\x85\xa3', 'ag'), ('\xe9\xa4\x90', 'ng'), ('\xe4\xba\x92\xe5\x88\xa9', 'vn'), ('\xe5\x90\x88\xe4\xbd\x9c', 'vn'), ('\xef\xbc\x8c', 'wd'), ('\xe7\xac\xa6\xe5\x90\x88', 'v'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe4\xba\xba\xe6\xb0\x91', 'n'), ('\xe7\x9a\x84', 'ude1'), ('\xe6\xa0\xb9\xe6\x9c\xac', 'a'), ('\xe5\x88\xa9', 'n'), ('\xe4\xb8\x9a', 'ng'), ('\xb5', 'n')]

句子2：[('\xe4\xb8\x8d\xe6\x96\xad', 'd'), ('\xe6\xb7\xb1\xe5\x8c\x96', 'v'), ('\xe4\xb8\xad', 'b'), ('\xe7\xbc\x85', 'b'), ('\xe7\x9d\xa6\xe9\x82\xbb\xe5\x8f\x8b\xe5\xa5\xbd', 'nl'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xba\x92\xe5\x88\xa9', 'vn'), ('\xe5\x90\x88\xe4\xbd\x9c', 'vn'), ('\xef\xbc\x8c', 'wd'), ('\xe7\xac\xa6\xe5\x90\x88', 'v'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe5\x92\x8c', 'cc'), ('\xe4\xb8\xa4', 'm'), ('\xe5\x9b\xbd', 'n'), ('\xe4\xba\xba\xe6\xb0\x91', 'n'), ('\xe7\x9a\x84', 'ude1'), ('\xe6\xa0\xb9\xe6\x9c\xac', 'a'), ('\xe5\x88\xa9\xe7\x9b\x8a', 'n'), ('\xe3\x80\x82', 'wj')]

在进行中文处理时，千万要注意工具所支持的编码格式，特别是解码和编码的转换问题

0 0