CountVectorizer和TfidfVectorizer注意的地方
来源:互联网 发布:linux更改用户权限 编辑:程序博客网 时间:2024/06/10 22:14
vectorizer = CountVectorizer(min_df=1)//min_df是文档词频,即改词在文档中出现的文档数量,当vocabulary不为空时,该参数不起作用corpus = [ 'I am a boy', u'我 爱 北京 天安门' ]X = vectorizer.fit_transform(corpus)feature_name = vectorizer.get_feature_names()print feature_name//结果是:[u'am', u'boy', u'\u5317\u4eac', u'\u5929\u5b89\u95e8']//自动将‘I,a,我,爱’这些单个长度的词过滤掉了在英文中单个长度的词往往属于停用词范围,所以过滤掉属于默认设置,对结果影响不大。可是在中文文本处理中,有一些单个长度的词,比如“爱”,“恨”都有着很明显的感情色彩。如果在做情感分析中,这些信息都十分重要。为了不过滤单个词可以设置vectorizer = CountVectorizer(token_pattern='(?u)\\b\\w+\\b')#主语 \b是词的边界上面提取的特征全部都是单个词,同样可以提取连词,如下:corpus = [ '是 的 我 啊', '啊啊 个 的 是', '我 的','啊 爱迪生' ]X = vectorizer.fit_transform(corpus)print X.vocabulary_//{'是': 4, '我': 3, '个': 0, '的': 6, '啊': 1, '啊啊': 2, '爱迪生': 5}
阅读全文
1 0
- CountVectorizer和TfidfVectorizer注意的地方
- CountVectorizer、TfidfTransformer、TfidfVectorizer关系
- TF-IDF权重计算:TfidfTransformer(),CountVectorizer()和TfidfVectorizer()
- sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法
- sklearn CountVectorizer\TfidfVectorizer\TfidfTransformer函数详解
- 使用CountVectorizer和TfidfVectorizer对fetch_20newsgroups数据进行分类,并对是否使用停用词进行对比(精确度)
- 分别使用CountVectorizer与TfidfVectorizer, 并且去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试
- TfidfVectorizer和TfidfTransformer
- typedef的使用方法和注意的地方
- Oracle9i安装图解和注意的地方
- switch() case注意的地方和用法
- IE和火狐需要注意的地方
- sprintf和snprintf需要注意的地方
- expdp和impdp需要注意的地方
- @selector 注意的地方
- STM32 注意的地方
- 值得注意的地方
- Oracle注意的地方
- 驱动程序的 SQLAllocHandle on SQL_HANDLE_ENV 失败
- 1977!
- JQuery和JS怎样实现淘宝购物车的添加和删除?
- win32测试Tcmalloc性能
- springmvc4-hibernate二级缓存应用
- CountVectorizer和TfidfVectorizer注意的地方
- screen 命令
- HDU-2017"百度之星"程序设计大赛-复赛-1003-Pokémon GO
- 微信支付申请不了找黑河马解决
- WarGames-Natas(16)
- 基本线程机制
- 概率DP[NOIP2016D2T3换教室]
- 欢迎来到股市大金牛精英平台!
- win7安装centos7问题(U盘安装)