SimHash , 用于文本的局部敏感哈希
来源:互联网 发布:拉爆淘宝首页流量 编辑:程序博客网 时间:2024/06/08 13:52
简介
1. min-wise independent permutations
2.SimHash
SimHash适用于 可以用若干个<特征,权重> 对来表示的样本, 如
那么可以通过 SimHash 来得到它的 fingerpoint.
设定fingerpoint的维度d=64.
- 输入样本的特征,
object={<f1,w1>,...,<fm,wm>}(2) - 对每一个
<f,w> , 作下列处理.
a. 作传统的hash(f) , 得到长度为d 的二进制的哈希值h,h[i] 为它第i维的分量.
b. 得到<f,w> 的fp(finger point), 它的维度也是 d, 计算逻辑为
, 其中fp(f,w)[i]=indicator(h[i])∗w(3)
indicator(x)={1−1x=1x=0 - 对各个
<f,w> 的fingerpoint 加和, 得到v⃗ :v(object)=∑i=1mfp(fi,wi) - 对各个分量作0-1转化.
fp(object)[i]=sign(v(object)[i])
, 其中
sign(x)={10x>0x<0
下面以文档的SimHash为例, 给出一个流程图:
图 2-1 SimHash 原理(feature 就是关键词, w就可以理解为词频)
参考
- simhash was developed by Moses Charikar and is described in his paper, Simhash Princeton Univ. Paper
- Simhash explained
- 百度文库, 基于minwise哈希的文档复制检测的研究及应用
阅读全文
0 0
- SimHash , 用于文本的局部敏感哈希
- 文本局部敏感哈希-SimHash算法原理
- simhash(局部敏感哈希)的原理及应用
- simhash(局部敏感哈希)的原理及应用
- 文本局部敏感哈希-MinHash算法原理
- LSH(局部敏感哈希算法)实现文本的相似性比对
- 局部敏感哈希
- 局部敏感哈希
- 局部敏感哈希
- 局部敏感哈希
- 局部敏感哈希
- simhash算法的原理-用于实现文本判重复算法
- 局部敏感哈希算法的实现
- 局部敏感哈希算法的实现
- LSH局部敏感哈希的介绍
- R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理)
- 局部敏感哈希LSH
- LSH局部敏感哈希
- 第四周项目3(1)——单链表应用
- Android Http模拟浏览器multipart/form-data多文件上传服务器
- 大数据第一天: linux里文本第一行一般为shell脚本解释器的路径
- 机器人学杂记
- 第三周 --顺序表 的基本运算
- SimHash , 用于文本的局部敏感哈希
- Java多线程系列--“JUC锁”09之 CountDownLatch原理和示例
- 汉语转拼音
- MaterialDrawer库的Gradle配置
- 使用Arrays.asList()需要注意的点
- java继承的初始化机制
- Android基础总结九:VectorDrawable
- 百度图片动态爬取3.0
- 面向对象基础概念