jieba提取关键词时筛选词性时单词性选择的一点注意事项

来源：互联网发布：中世纪2原版优化第十版编辑：程序博客网时间：2024/04/29 19:38

最近又在迭代特征工程，发现jieba提取特征词有个需要注意的地方，直接看例子

例子1

>>> import jieba>>> import jieba.posseg as pseg>>> s = '我们喜欢支付宝, 苹果'>>> ws = pseg.cut(s)>>> for i in ws:...     print i...我们/r喜欢/v支付宝/nr,/x /x苹果/n>>> allow_pos = ('nr',)>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:...     print t...支付宝>>> allow_pos = ('nr')>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:...     print t...苹果我们

allow_pos = (‘nr’,) 带逗号，allow_pos是tuple，结果只选取’nr’词性的词
allow_pos = (‘nr’), allow_pos是一个string，结果选取了’n’ 和’r’的词性
这个差别造成了关键词提取方法中词性选取的差异

0 0