SparkMLib学习第二部分
来源:互联网 发布:mmd怎么删除动作数据 编辑:程序博客网 时间:2024/05/21 07:50
特征抽取、转换和选择
- 抽取:从原始数据中抽取特征
- 转换:缩放、转化或修改特征
- 选择:从大特征集中选择子特征集
- 局部敏感哈希(locality Sensitive Hashing,LSH):
特征抽取
TF-IDF
TF-IDF是在文本挖掘中广泛使用的特征矢量化方法,其中来反应语料库中的一个术语在一篇文档中的重要性。
具体的TF-IDF解释,见维基百科tf-idf
TF:HashingTF和CountVectorizer能够产生词频向量。
- HashingTF是一个能够将术语集合转换成固定长度特征向量的转换器。在文本处理中,一个“术语集合”有可能是一个“词袋”。HashingTF使用哈希散列方式,将原始元素通过哈希函数MurmurHash 3映射成为术语索引。然后通过映射索引计算词频。这种方式避免了计算全局术语-索引映射,因为这种方式在大语料库情况下可能计算量非常大。但是又可能会造成潜在的哈希冲突,不同的原始元素经过哈希计算后可能成为相同的术语,可以通过增加目标元素维度的方式减少冲突的机会,例如,哈希表的筒数。由于使用简单模数将散列函数转换为列索引,因此建议使用2的幂作为要素维度,否则不会将要素均匀映射到列。默认的特征维度为2的18次方。可选的二进制切换参数控制术语频率计数。设置为true时,所有非零频率计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。
- IDF:IDF是一个自适应数据集并生成一个IDF模型的评估器。IDF模型获取特征向量(通常由HashingTF或者CountVectorizer产生)并缩放每个列。直观上,其降低频繁出现在语料库中的猎德权重。
- 注:
spark.ml
并不提供文本分割工具。 代码示例
examples/src/main/java/org/apache/spark/examples/ml/JavaTfIdfExample.java
Word2Vec
Word2Vec是一个评估器,其接受代表文档的单词序列并训练出一个Word2VecModel。这个模型将没歌词映射成为唯一大小固定的向量,Word2VecModel使用文档中所有单词的平均值将每个文档转换为向量,这个向量可以被用于做特征预测, 文档相似性计算等等。
代码:
examples/src/main/java/org/apache/spark/examples/ml/JavaWord2VecExample.java
SparkMLib学习先暂停一段落,发现楼主已经忘记机器学习学过啥了,先回头再看看机器学习了
0 0
- SparkMLib学习第二部分
- SparkMLib Pipelines学习(一)
- 【Jquery学习】第二部分
- Flask学习笔记 评论部分第二部分
- 循序渐进学习JUnit:第二部分
- CI框架学习第二部分
- hive学习笔记第二部分
- VoIP学习笔记第二部分:语音编码
- XSL:XSL基础学习第二部分
- Java学习第四天笔记-第二部分
- javascript对象章节学习第二部分
- Spring in Action 第二部分学习笔记
- 《Effective STL》学习笔记(第二部分)
- 《Effective STL》学习笔记(第二部分)
- 第二部分PDO详解--个人学习笔记
- c++primer_第二部分学习的感觉
- 黑马学习笔记--常用API 第二部分
- Python学习手册(第二部分)
- 山路弯弯需坚持之jQuery EasyUI (一)
- mysql不能插入中文数据
- my sql 入门教程 5.6
- Java面向对象(一)
- 给xml文件增加DTD头
- SparkMLib学习第二部分
- Android 下拉框Spinner
- SQL学习之:INTERVAL YEAR TO MONTH 和 INTERVAL DAY TO SECOND
- 上传图片,多图上传,预览功能,js原生无依赖
- Charles Proxy for Mac & Windows (4.0.2)破解激活工具
- Linux网络编程学习笔记-socket编程3--5
- zTree树的生成
- 获取分组后取某字段最大一条记录(求每个类别中最大的值的列表)
- 自动生成博客目录