jieba提取关键词时筛选词性时单词性选择的一点注意事项
来源:互联网 发布:中世纪2原版优化第十版 编辑:程序博客网 时间:2024/04/29 19:38
最近又在迭代特征工程,发现jieba提取特征词有个需要注意的地方,直接看例子
例子1
>>> import jieba>>> import jieba.posseg as pseg>>> s = '我们喜欢支付宝, 苹果'>>> ws = pseg.cut(s)>>> for i in ws:... print i...我们/r喜欢/v支付宝/nr,/x /x苹果/n>>> allow_pos = ('nr',)>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:... print t...支付宝>>> allow_pos = ('nr')>>> tags = jieba.analyse.extract_tags(s, topK=10, withWeight=False, allowPOS=allow_pos)>>> for t in tags:... print t...苹果我们
allow_pos = (‘nr’,) 带逗号,allow_pos是tuple, 结果只选取’nr’词性的词
allow_pos = (‘nr’), allow_pos是一个string, 结果选取了’n’ 和’r’的词性
这个差别造成了关键词提取方法中词性选取的差异
0 0
- jieba提取关键词时筛选词性时单词性选择的一点注意事项
- jieba分词、关键词提取、词性标注
- python的jieba分词词性标注
- jieba分词/载入词典/抽取关键词/标注词性
- jieba分词、自定义词典提取高频词、词性标注及获取词的位置
- 词性
- jieba分词词性标记含义
- jieba分词词性标注含义
- jieba分词 词性标记含义
- 十、半个小时搞定词性标注与关键词提取
- 基于词性的特征提取方法
- jieba(结巴)分词种词性简介
- jieba(结巴)分词种词性简介
- jieba(结巴)分词种词性简介
- jieba关键词提取算法
- NLTK的词性
- 英语单词的词性
- 英语单词new的词性
- python解析json字符串
- Cocos2d-js 热更新学习笔记
- SQL Error: 0, SQLState: 08S01 和Communications link failure
- Linux学习 第一单元
- Java sdut acm 1959 简单枚举类型——植物与颜色
- jieba提取关键词时筛选词性时单词性选择的一点注意事项
- C++中的函数重载中为什么不考虑返回值类型?
- Android 图片资源文件夹(hdpi,mdpi,xhdpi,xxhdpi,xxxhdpi)对应的手机分辨率
- cesiumjs学习笔记之一——环境搭建
- 安卓开发定义一个全局的捕获异常,提升客户体验
- 迷宫问题
- 二叉搜索树的前序遍历
- Iserver产品模块划分
- 使用nexus搭建maven私服、手动更新索引