程序博客网 > 王者荣耀网络问卷调查

spark或者mapreduce文档相似度计算

来源：互联网发布：王者荣耀网络问卷调查编辑：程序博客网时间：2024/05/17 09:20

计算pairwise文档相似度一般来说是n2复杂度的，最近看了看一篇比较老的论文：Pairwise Document Similarity in Large Collections with MapReduce，采用了一种两阶段的方案，先以词为单位建立倒排，再计算相似度，写了代码进行实现，如下：

import org.apache.spark.rdd.RDDimport utility.Helpersimport scala.collection.mutable/**  * Created by fhqplzj on 2017/7/21.  */object DocSimilarity {  case class IndexedDocument(id: Long, words: Array[String])  def pairwise_document_similarity(docs: RDD[IndexedDocument]): RDD[((Long, Long), Int)] = {    /*Indexing*/    val inverted_indices = docs.flatMap {      doc =>        val word_count = new mutable.HashMap[String, Int]().withDefaultValue(0)        doc.words.foreach {          word =>            word_count(word) += 1        }        word_count.toArray.map {          case (word, cnt) =>            (word, (doc.id, cnt))        }    }.groupByKey()    /*Pairwise Similarity*/    inverted_indices.flatMap {      case (_, elems) =>        val items = elems.toSeq.sortBy(_._1)        val len = items.length        for {          i <- 0 until len - 1          j <- i + 1 until len        } yield ((items(i)._1, items(j)._1), items(i)._2 * items(j)._2)    }.groupByKey().mapValues(_.sum)  }  def main(args: Array[String]): Unit = {    val sc = Helpers.getSc    val docs = sc.makeRDD(Seq(      IndexedDocument(1, "A A B C".split(" ")),      IndexedDocument(2, "B D D".split(" ")),      IndexedDocument(3, "A B B E".split(" "))    ))    pairwise_document_similarity(docs).foreach(println)  }}

阅读全文

0 0

王者荣耀网络问卷调查

王者荣耀网络问卷调查

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子小学六年级素质报告单丢了怎么办西安小学素质报告册有b怎么办辽宁省干部在线学习时长不够怎么办鬼火一代发动机在中间卡死怎么办医疗权与患者隐私权想冲突怎么办登录法宣在线出现贴号失效怎么办黔微普法在线竞答成绩不合格怎么办怎么办刮过胡子后又长了? 网贷暴力催收警察也没办法怎么办儿子把我车抵押给了高利贷怎么办水泵开机五分钟左右就跳闸怎么办离婚了她说过的不好你该怎么办偏侧咀嚼笑时一边嘴歪怎么办三相四线开关前地线有电怎么办高三学生重度抑郁怎么办马高考了潞城报名系统密码找不回来怎么办绵阳富乐实验小学外地入学怎么办联想手机升级失败开不了机怎么办电脑桌面上的微信图标不见了怎么办精子总活力和运动力低怎么办精子少畸形高怎么办能治好吗小米无人机只能飞500米远怎么办考察课作弊被老师抓了怎么办手机中木马病毒了钱被盗走了怎么办在搜不到校园网的情况下怎么办刚买小鸡第四天晚上一直叫怎么办碘131第四天晚上吃太撑了怎么办出现请点击画面开始进行校准怎么办大学毕业后才发现荒废了学业怎么办房屋面积重新测量超了一倍怎么办物管把业主的电断了怎么办在人多的场合紧张不适应怎么办人寿人身损害勘查结果有争议怎么办批量性不良再限度样本规格内怎么办老公说老婆不攒钱都买衣服了怎么办华为手机获取安装包信息失败怎么办液压电动脱模器不上升了怎么办退伍军人证和身份证名字不付怎么办车辆有违章需要短信提醒要怎么办 1969年退伍的退伍证丢了怎么办江苏移动没实名认证停机了怎么办呀