Spark成长之路(10)-CountVectorizer
来源:互联网 发布:身份证验证接口java 编辑:程序博客网 时间:2024/06/14 13:52
CountVectorizer
简介
用文档中单个单词出现的次数组成一个向量。
代码
object CountVectorizerExample { def main(args: Array[String]): Unit = { val spark = SparkSession.builder().getOrCreate() val df = spark.createDataFrame(Seq( (0, Array("a", "b", "c")), (1, Array("a", "b", "b", "c", "a", "a")) )).toDF("id", "words") // fit a CountVectorizerModel from the corpus val cvModel: CountVectorizerModel = new CountVectorizer() .setInputCol("words") .setOutputCol("features") .setVocabSize(3) .setMinDF(2) .fit(df) // alternatively, define CountVectorizerModel with a-priori vocabulary val cvm = new CountVectorizerModel(Array("a", "b", "c", "c")) .setInputCol("words") .setOutputCol("features") cvModel.transform(df).show(false) }}
输出
+---+------------------+-------------------------+|id |words |features |+---+------------------+-------------------------+|0 |[a, b, c] |(3,[0,1,2],[1.0,1.0,1.0])||1 |[a, b, b, c, a, a]|(3,[0,1,2],[3.0,2.0,1.0])|+---+------------------+-------------------------+
阅读全文
0 1
- Spark成长之路(10)-CountVectorizer
- Spark CountVectorizer处理文本特征
- Spark成长之路(1)-搭建环境
- Spark成长之路(5)-消息队列
- Spark成长之路(6)-Correlation
- Spark成长之路(7)-Hypothesis testing
- Spark成长之路(8)-TFIDF
- Spark成长之路(9)-Word2Vec
- Spark成长之路(11)-ngram
- Spark成长之路(12)-Gradient Descent
- CountVectorizer
- Spark成长之路(2)-RDD中分区依赖系统
- Spark成长之路(3)-再谈RDD的Transformations
- Spark成长之路(4)-分区器系统
- Spark成长之路(13)-DataSet与DataFrame
- spark厦大---特征抽取:CountVectorizer -- spark.ml
- sklearn之sklearn.feature_extraction.text.CountVectorizer
- NLP处理-Spark中的HashTF与CountVectorizer模型
- POJ 3199 Uncle Jack (高精度)
- 地图-导航(百度/高德)
- 设置通知栏的背景颜色或全幅背景
- 【知识整理】微信小程序-图片在容器中等比缩放至垂直、水平居中,并计算缩放后真实宽高
- hpuoj【1037】一个简单的数学题 【数学】&&【快速幂】
- Spark成长之路(10)-CountVectorizer
- Java遍历Map对象的四种方式
- Spring MVC 入门
- SQL语句大全
- SAP MM批次管理(3)批次级别
- HDU
- FCC-Basic JavaScript
- vue之v-
- mysql成功安装不能启动问题