SparkMLib学习第二部分

来源：互联网发布：mmd怎么删除动作数据编辑：程序博客网时间：2024/05/21 07:50

特征抽取、转换和选择

TF-IDF是在文本挖掘中广泛使用的特征矢量化方法，其中来反应语料库中的一个术语在一篇文档中的重要性。
具体的TF-IDF解释，见维基百科tf-idf

TF:HashingTF和CountVectorizer能够产生词频向量。
- HashingTF是一个能够将术语集合转换成固定长度特征向量的转换器。在文本处理中，一个“术语集合”有可能是一个“词袋”。HashingTF使用哈希散列方式，将原始元素通过哈希函数MurmurHash 3映射成为术语索引。然后通过映射索引计算词频。这种方式避免了计算全局术语-索引映射，因为这种方式在大语料库情况下可能计算量非常大。但是又可能会造成潜在的哈希冲突，不同的原始元素经过哈希计算后可能成为相同的术语，可以通过增加目标元素维度的方式减少冲突的机会，例如，哈希表的筒数。由于使用简单模数将散列函数转换为列索引，因此建议使用2的幂作为要素维度，否则不会将要素均匀映射到列。默认的特征维度为2的18次方。可选的二进制切换参数控制术语频率计数。设置为true时，所有非零频率计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。
IDF:IDF是一个自适应数据集并生成一个IDF模型的评估器。IDF模型获取特征向量（通常由HashingTF或者CountVectorizer产生）并缩放每个列。直观上，其降低频繁出现在语料库中的猎德权重。
注：spark.ml并不提供文本分割工具。

代码示例

examples/src/main/java/org/apache/spark/examples/ml/JavaTfIdfExample.java

Word2Vec是一个评估器，其接受代表文档的单词序列并训练出一个Word2VecModel。这个模型将没歌词映射成为唯一大小固定的向量，Word2VecModel使用文档中所有单词的平均值将每个文档转换为向量，这个向量可以被用于做特征预测，文档相似性计算等等。

代码:

examples/src/main/java/org/apache/spark/examples/ml/JavaWord2VecExample.java

0 0