similarity join(record linkage, merge/purge, deduplicate)总结

来源:互联网 发布:开淘宝代购护肤品店 编辑:程序博客网 时间:2024/05/21 09:15

join的时候一般有如下的特点:

数据集较大,但是能够join的数据相对非常非常的少。



1. 为了提高join的效率一般有两种做法

   1.1 Cartesian product的时候用cost较小的function来判断其相似度不能达到阈值,从而避免用cost较大的相似度判断function

   1.2 在join操作之前,通过某种方法产生候选集,将一定不会相似的记录prune掉。在做prune算法设计的时候要注意:被prune掉的记录中不能含有正确的解,也就是不允许false positive。


2.


待续。。


原创粉丝点击