TF-IDF

来源:互联网 发布:松下洗衣机 三洋 知乎 编辑:程序博客网 时间:2024/05/01 07:00

Reference

  • TF-IDF
  • Hash
  • Unsupervised discovery of mid-level discriminative patches

Prerequisite

  • TF: 词频(term frequency),某个文件中特定词出现的频率。
  • IDF: 逆向文件频率 (inverse document frequency),某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。TF-IDF联合起来评估一字词(Visual word)对于一个文件集或一个语料库(Images dataset)中的其中一份文件的重要程度。
  • 我的感觉:这与 discriminative patch存在很大的相似性,discriminative patch的含义在于frequency(representative) and different(discriminative).
    representative vs TF
    discriminativevs vs IDF

Application

  • Lp-norm IDF for Large Scale Image Search
    传统的IDF:对于某一特定visual word,可以由总图片数目除以包含该词语之图片的数目之比的对数来计算。传统的IDF
    图片相似度: query q, database d, codebook size K, di、qi为图片i中codebook的统计分布直方图的数目。
    计算两图片的相似度
    some drawback
    这里写图片描述
    Improvement
    v代表database中每张图片中第k个visual word的出现的次数(词频),w是每张图片的权重,p是Lp-norm的参数。d代表每张图片的feature个数(文件长度,文件越长,某一word出现次数的可能性越高),后面的????
    这里写图片描述
    这里写图片描述
    (说实在,我不想看这篇文章,居然是CVPR。。。)
0 0