使用sklearn进行文本TF-IDF处理
来源:互联网 发布:扣压高压油管算法数据 编辑:程序博客网 时间:2024/05/29 15:42
使用 sklearn 进行文本 TF-IDF 处理
在进行自然预言处理中的文本处理任务中经常会使用到 TF-IDF, 在这里进行简单记录.
给一个维基百科上的描述
在一份給定的文件裡,詞頻(term frequency,tf)指的是某一個給定的詞語在該文件中出現的频率。這個數字是对词数(term count)的归一化,以防止它偏向長的文件。(同一個詞語在長文件裡可能會比短文件有更高的詞数,而不管該詞語重要與否。)對於在某一特定文件裡的詞語 ti 來說,它的重要性可表示為:
以上式子中 n{i,j} 是該詞在文件 d{j} 中的出現次數,而分母則是在文件 d{j} 中所有字詞的出現次數之和。
逆向文件頻率(inverse document frequency,idf)是一個詞語普遍重要性的度量。某一特定詞語的 idf,可以由總文件數目除以包含該詞語之文件的數目,再將得到的商取對數得到:
|D|:語料庫中的文件總數
分母包含詞語 t{i} 的文件數目
以上出自维基百科, 具体内容可以点击进去细看
题目描述:
在使用 TF-IDF 时,对于不熟悉 sklearn 的同学通常都会手动统计每个词的频率进行计算.不过其实 sklearn 已经对其进行了封装
from sklearn.feature_extraction.text import TfidfVectorizerX_train = ['hello', 'hi', 'hei']X_test = ['hi', 'haa', 'hei']vectorizer = TfidfVectorizer(stop_words='english')vectorizer.fit_transform(X_train).todense()X_train = vectorizer.transform(X_train)print X_trainX_test = vectorizer.transform(X_test)print X_test
参考资料:
http://d0evi1.com/sklearn/feature_extraction/
0 0
- 使用sklearn进行文本TF-IDF处理
- python 使用sklearn计算TF-IDF权重
- tf-idf:sklearn中TfidfVectorizer使用
- 使用tf-idf文本分类
- sklearn 计算tf-idf
- 使用lingpipe自然语言处理包进行文本分类/** * 使用 lingpipe的tf/idf分类器训练语料 * * @author laigood */ public class trai
- 使用TF-IDF进行文档分类
- 文本词频TF-IDF
- IK分词源码讲解(六)-IK结合lucene使用并进行TF、IDF处理
- [python] 使用scikit-learn工具计算文本TF-IDF值
- 使用scikit-learn工具计算文本TF-IDF值
- [python] 使用scikit-learn工具计算文本TF-IDF值
- python使用tf-idf法判断文本关键词
- TF-IDF 提取文本关键词
- 文本分词与TF-IDF
- 文本分析之TF-IDF
- tf-idf + svm 文本分类
- 自然语言处理方法---TF-IDF
- IT人不要一直做技术
- linux module解析
- 如果你喜欢销售,那么你一定要看!经典之作!
- Android 编程下通过 Theme 和 Style 避免 APP 启动闪黑屏或者白屏,快速启动
- Nginx+tomcat实现集群和负载均衡
- 使用sklearn进行文本TF-IDF处理
- 命令行运行java程序(新手必会)
- 非技术
- 代理模式
- div按钮CSS
- selenium+python键盘加鼠标操作
- 首页头部提示布局
- 阿里云安装配置
- 二十、UI-Grid 编辑功能