Spark CountVectorizer处理文本特征
来源:互联网 发布:刷钻石软件 编辑:程序博客网 时间:2024/06/02 05:45
声明:版权所有,转载请联系作者并注明出处 http://blog.csdn.net/u013719780?viewmode=contents
博主简介:风雪夜归子(Allen),机器学习算法攻城狮,喜爱钻研Meachine Learning的黑科技,对Deep Learning和Artificial Intelligence充满兴趣,经常关注Kaggle数据挖掘竞赛平台,对数据、Machine Learning和Artificial Intelligence有兴趣的童鞋可以一起探讨哦,个人CSDN博客:http://blog.csdn.net/u013719780?viewmode=contents
CountVectorizer算法是将文本向量转换成稀疏表示打数值向量(字符频率向量)。该数值向量可以传递给其他算法,譬如LDA 。在fitting过程中,CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数。下面看一个具体的例子。
from pyspark.ml.feature import CountVectorizer# Input data: Each row is a bag of words with a ID.df = sqlContext.createDataFrame([ (0, "a b c".split(" ")), (1, "a b b c a".split(" "))], ["id", "words"])# fit a CountVectorizerModel from the corpus.cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)model = cv.fit(df)result = model.transform(df)result.show()
from pyspark.ml.feature import CountVectorizer# Input data: Each row is a bag of words with a ID.df = sqlContext.createDataFrame([ (0, "a b c".split(" ")), (1, "a b b c a".split(" "))], ["id", "words"])# fit a CountVectorizerModel from the corpus.cv = CountVectorizer(inputCol="words", outputCol="features", vocabSize=3, minDF=2.0)model = cv.fit(df)result = model.transform(df)result.show()
1 0
- Spark CountVectorizer处理文本特征
- 三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)
- scala--三种文本特征提取(TF-IDF/Word2Vec/CountVectorizer)及Spark MLlib调用实例(Scala/Java/python)
- spark厦大---特征抽取:CountVectorizer -- spark.ml
- NLP处理-Spark中的HashTF与CountVectorizer模型
- 文本词频Countvectorizer
- 文本特征提取_03:基于词频数的文档向量CountVectorizer
- SparkML中三种文本特征提取算法(TF-IDF/Word2Vec/CountVectorizer)
- Spark特征处理
- 使用CountVectorizer并且不去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试
- Kaggle_news_stock简单文本特征处理
- 特征工程与文本处理
- 特征工程与文本处理
- CountVectorizer
- Spark成长之路(10)-CountVectorizer
- spark文本处理-文章分类
- 分别使用CountVectorizer与TfidfVectorizer, 并且去掉停用词的条件下,对文本特征进行量化的朴素贝叶斯分类性能测试
- Spark特征处理之RFormula源码解析
- properties文件
- SIZE_T类型
- 一些常用的windows批处理命令
- iOS应用架构谈 组件化方案
- 学习.NET Framework的配置文件app.config
- Spark CountVectorizer处理文本特征
- 动物这样叫-(1)
- 关于禁用Cookie的问题以及解决办法
- PHP:由一些小问题引发的思考
- MySQL分区的实现方式
- 内核并发控制---完成量
- Alex 我为自己代言
- 刷题的方法
- Java Annotation 简析