SparkMLib学习第二部分

来源:互联网 发布:mmd怎么删除动作数据 编辑:程序博客网 时间:2024/05/21 07:50

特征抽取、转换和选择

  • 抽取:从原始数据中抽取特征
  • 转换:缩放、转化或修改特征
  • 选择:从大特征集中选择子特征集
  • 局部敏感哈希(locality Sensitive Hashing,LSH):

特征抽取

TF-IDF

TF-IDF是在文本挖掘中广泛使用的特征矢量化方法,其中来反应语料库中的一个术语在一篇文档中的重要性。
具体的TF-IDF解释,见维基百科tf-idf

  • TF:HashingTF和CountVectorizer能够产生词频向量。

    • HashingTF是一个能够将术语集合转换成固定长度特征向量的转换器。在文本处理中,一个“术语集合”有可能是一个“词袋”。HashingTF使用哈希散列方式,将原始元素通过哈希函数MurmurHash 3映射成为术语索引。然后通过映射索引计算词频。这种方式避免了计算全局术语-索引映射,因为这种方式在大语料库情况下可能计算量非常大。但是又可能会造成潜在的哈希冲突,不同的原始元素经过哈希计算后可能成为相同的术语,可以通过增加目标元素维度的方式减少冲突的机会,例如,哈希表的筒数。由于使用简单模数将散列函数转换为列索引,因此建议使用2的幂作为要素维度,否则不会将要素均匀映射到列。默认的特征维度为2的18次方。可选的二进制切换参数控制术语频率计数。设置为true时,所有非零频率计数都设置为1.这对于模拟二进制计数而不是整数计数的离散概率模型特别有用。
  • IDF:IDF是一个自适应数据集并生成一个IDF模型的评估器。IDF模型获取特征向量(通常由HashingTF或者CountVectorizer产生)并缩放每个列。直观上,其降低频繁出现在语料库中的猎德权重。
  • 注:spark.ml并不提供文本分割工具。
  • 代码示例

    examples/src/main/java/org/apache/spark/examples/ml/JavaTfIdfExample.java

Word2Vec

Word2Vec是一个评估器,其接受代表文档的单词序列并训练出一个Word2VecModel。这个模型将没歌词映射成为唯一大小固定的向量,Word2VecModel使用文档中所有单词的平均值将每个文档转换为向量,这个向量可以被用于做特征预测, 文档相似性计算等等。

  • 代码:

    examples/src/main/java/org/apache/spark/examples/ml/JavaWord2VecExample.java

SparkMLib学习先暂停一段落,发现楼主已经忘记机器学习学过啥了,先回头再看看机器学习了

0 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 一多半宝宝爱喝水不爱吃饭怎么办 十个月宝宝不爱吃饭怎么办 十个月宝宝突然不爱吃饭怎么办 二十个月宝宝不爱吃饭怎么办 十个月的宝宝不爱吃饭怎么办 6年级学生数学差怎么办 打印机打不出来就是一张白纸怎么办 wps表格下拉数字不递增怎么办 wps表格圈怎么打出来怎么办 手表固定圈掉了怎么办 起来觉得头晕头胀怎么办? 孩子不好好写作业怎么办 孩子考试考差了怎么办 孩子计算题马虎大意怎么办 二年级孩子不认字怎么办 发现计算上的错误怎么办 孩子不好好做作业怎么办 手破了红肿了怎么办呢 老师反应孩子在校粗心胆小怎么办 四年级的学生计算粗心怎么办 老打孩子骂孩子怎么办 站久了脚肿了怎么办 孩子初中了书写越来越潦草怎么办 给孩子自由孩子无法无天怎么办 孩子挑食幼儿园老师该怎么办 老师说孩子挑食家长怎么办 工作中老是粗心不细心怎么办 小孩数学总是特别粗心该怎么办 孩子起范疙瘩的怎么办 做题马虎不认真怎么办 孩子考差了家长怎么办 小孩写作业不认真怎么办 小孩不认真检查作业怎么办 一年级的小孩作业不认真怎么办 一年级学生做题粗心怎么办 一年级的学生做题粗心怎么办 孩子做作业注意力不集中怎么办 小学三年孩子抄答案怎么办 孩子写作业不认真审题怎么办 一年级小孩审题不认真怎么办 孩子审题不认真马虎怎么办