jieba提取关键词时筛选词性时单词性选择的一点注意事项

来源:互联网 发布:中世纪2原版优化第十版 编辑:程序博客网 时间:2024/04/29 19:38

最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子

例子1

>>> import jieba>>> import jieba.posseg as pseg>>> s = '我们喜欢支付宝, 苹果'>>> ws = pseg.cut(s)>>> for i in ws:...     print i...我们/r喜欢/v支付宝/nr,/x /x苹果/n>>> allow_pos = ('nr',)>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:...     print t...支付宝>>> allow_pos = ('nr')>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:...     print t...苹果我们

allow_pos = (‘nr’,) 带逗号,allow_pos是tuple, 结果只选取’nr’词性的词
allow_pos = (‘nr’), allow_pos是一个string, 结果选取了’n’ 和’r’的词性
这个差别造成了关键词提取方法中词性选取的差异

0 0