基于DF的Tokenizer分词

来源：互联网发布：java对象序列化的作用编辑：程序博客网时间：2024/06/14 03:41

Tokenizer分词

进行文本分析前，对文本中句子进行分词我们处理的第一步。大家都是Spark的机器学习库分为基于RDD和基于DataFrame的库，由于基于RDD的库在Spark2.0以后都处于维护状态，我们这里讲的分词就是基于Spark的Dataframe的。主要是讲解两个类Tokenizer和RegexTokenizer的使用。

1 首先准备数据

导包

importorg.apache.spark.ml.feature.{RegexTokenizer,Tokenizer}
importorg.apache.spark.sql.functions._

准数据

valsentenceDataFrame =spark.createDataFrame(Seq(
(0,"Hi I heard about Spark"),
(1,"I wish Java could use case classes"),
(2,"Logistic,regression,models,are,neat")
)).toDF("id","sentence")

2 Tokenizer

Tokenizer负责读取文档或者句子，将其分解为单词。声明一个变量

valtokenizer = newTokenizer().setInputCol("sentence").setOutputCol("words")

自定义函数来获取每列单词数目

valcountTokens =udf{ (words:Seq[String]) => words.length }

调用转换函数

valtokenized = tokenizer.transform(sentenceDataFrame)
tokenized.select("sentence","words").withColumn("tokens",countTokens(col("words"))).show(false)

3 RegexTokenizer

RegexTokenizer允许基于正则的方式进行文档切分成单词组。默认情况下，使用参数“pattern”（regex, default: "\s+"）作为分隔符来分割输入文本。或者，用户可以将参数“gaps”设置为false，指示正则表达式“pattern”表示“tokens”，而不是分割间隙，并查找所有匹配事件作为切分后的结果。

valregexTokenizer =newRegexTokenizer().setInputCol("sentence").setOutputCol("words").setPattern("\W")
// 也可换为 .setPattern("\w+").setGaps(false)

开始转换并查看执行结果

valregexTokenized =regexTokenizer.transform(sentenceDataFrame)
regexTokenized.select("sentence","words").withColumn("tokens",countTokens(col("words"))).show(false)

推荐阅读：

1，干货：基于Spark Mllib的SparkNLP库。

2，Spark的Ml pipeline

3，spark调优系列之内存和GC调优

4，Table API&SQL的基本概念及使用介绍

密封线分割线

关于Spark高级玩法

kafka，hbase，spark，Flink等入门到深入源码，spark机器学习，大数据安全，大数据运维，请关注浪尖公众号，看高质量文章。

更多文章，敬请期待

阅读全文

0 0