基于DF的Tokenizer分词
来源:互联网 发布:java对象序列化的作用 编辑:程序博客网 时间:2024/06/14 03:41
Tokenizer分词
进行文本分析前,对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库,由于基于RDD的库在Spark2.0以后都处于维护状态,我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。
1 首先准备数据
导包
importorg.apache.spark.ml.feature.{RegexTokenizer,Tokenizer}
importorg.apache.spark.sql.functions._
准数据
valsentenceDataFrame =spark.createDataFrame(Seq(
(0,"Hi I heard about Spark"),
(1,"I wish Java could use case classes"),
(2,"Logistic,regression,models,are,neat")
)).toDF("id","sentence")
2 Tokenizer
Tokenizer负责读取文档或者句子,将其分解为单词。声明一个变量
valtokenizer = newTokenizer().setInputCol("sentence").setOutputCol("words")
自定义函数来获取每列单词数目
valcountTokens =udf{ (words:Seq[String]) => words.length }
调用转换函数
valtokenized = tokenizer.transform(sentenceDataFrame)
tokenized.select("sentence","words").withColumn("tokens",countTokens(col("words"))).show(false)
3 RegexTokenizer
RegexTokenizer允许基于正则的方式进行文档切分成单词组。默认情况下,使用参数“pattern”(regex, default: "\s+")作为分隔符来分割输入文本。或者,用户可以将参数“gaps”设置为false,指示正则表达式“pattern”表示“tokens”,而不是分割间隙,并查找所有匹配事件作为切分后的结果。
valregexTokenizer =newRegexTokenizer().setInputCol("sentence").setOutputCol("words").setPattern("\W")
// 也可换为 .setPattern("\w+").setGaps(false)
开始转换并查看执行结果
valregexTokenized =regexTokenizer.transform(sentenceDataFrame)
regexTokenized.select("sentence","words").withColumn("tokens",countTokens(col("words"))).show(false)
推荐阅读:
1,干货:基于Spark Mllib的SparkNLP库。
2,Spark的Ml pipeline
3,spark调优系列之内存和GC调优
4,Table API&SQL的基本概念及使用介绍
kafka,hbase,spark,Flink等入门到深入源码,spark机器学习,大数据安全,大数据运维,请关注浪尖公众号,看高质量文章。
更多文章,敬请期待
- 基于DF的Tokenizer分词
- boost::tokenizer分词器
- Tokenizer类的框架
- tokenizer
- 基于CRF的中文分词
- 基于CRF的中文分词
- 基于CRF的中文分词
- 基于CRF的中文分词
- 基于CRF的中文分词
- 基于CRF的中文分词
- 基于统计的中文分词
- 基于CRF的中文分词
- 基于统计的分词技术
- 基于统计学的中文分词
- 基于HMM的中文分词
- Lucene分词实现---Analyzer、TokenStream(Token、Tokenizer、Tokenfilter)
- Lucene分词实现---Analyzer、TokenStream(Token、Tokenizer、Tokenfilter)
- lucene分词器中的Analyzer,TokenStream, Tokenizer, TokenFilter
- 什么是Servlet容器?
- bzoj1031: [JSOI2007]字符加密Cipher
- 基于DataFrame的StopWordsRemover处理
- opencv多版本共存
- 详解HTML 标签和属性
- 基于DF的Tokenizer分词
- 润乾将excel转成pdf导出
- MySQL的事务、连接池以及数据源
- phpexcel 500错误以及乱码问题
- CCF CSP 201409-2 画图
- c/c++小题目总结2
- iOS 修改或去除tabBar顶部横线
- 文章标题
- 插件webuploader实现文件上传