CountVectorizer、TfidfTransformer、TfidfVectorizer关系

来源：互联网发布：香橙派 ubuntu 编辑：程序博客网时间：2024/05/19 16:07

#统计词频信息
ct=CountVectorizer(stop_words='english')
print ct.fit_transform(test_x).todense()
输出：
[[1 1 1 1 1 1 2 1 1 1 1]
[1 0 0 1 1 0 1 1 0 1 0]
[0 0 0 0 0 0 0 0 0 1 0]]
print ct.vocabulary_
输出：
{u'story': 10, u'good': 6, u'escapades': 4, u'amounts': 1, u'series': 9, u'gander': 5, u'goose': 7, u'adage': 0, u'occasionally': 8, u'demonstrating': 3, u'amuses': 2}
#根据词频信息生成TF-IDF向量
transformer=TfidfTransformer()
print transformer.fit_transform(ct.fit_transform(test_x))
输出：
(0, 9) 0.18699352422
(0, 4) 0.240788208802
(0, 3) 0.240788208802
(0, 0) 0.240788208802
(0, 6) 0.481576417605
(0, 7) 0.240788208802
(0, 5) 0.316607558316
(0, 8) 0.316607558316
(0, 2) 0.316607558316
(0, 1) 0.316607558316
(0, 10) 0.316607558316
(1, 9) 0.328078311076
(1, 4) 0.422460559532
(1, 3) 0.422460559532
(1, 0) 0.422460559532
(1, 6) 0.422460559532
(1, 7) 0.422460559532
(2, 9) 1.0

TfidfVectorizer
Convert a collection of raw documents to a matrix of TF-IDF features.
将原始文档的集合转换为tf - idf特性的矩阵
Equivalent to CountVectorizer followed by TfidfTransformer.

相当于CountVectorizer配合TfidfTransformer使用的效果

TfidfVectorizer类将CountVectorizer和TfdfTransformer类封装在一起

阅读全文

0 0