TF-IDF:网页和某个查询的相关性
来源:互联网 发布:手感好的无线鼠标知乎 编辑:程序博客网 时间:2024/05/29 04:56
TF-IDF:网页和某个查询的相关性
计算
TF:
关键词的频率 、单文本词汇频率 Term Frequency
衡量关键词在单个网页中出现的频率。
关键词的次数/单个网页的总字数(去掉应删除词(stopwords))。
IDF:
逆文本频率指数 Inverse document frequency
衡量一个词在整个文档集(所有网页)中的权重。
Log(D/Dw) ,一个关键词w在Dw个网页中出现过,D是全部网页数。Log=ln
一个查询的TF-IDF=TF1*IDF1+TF2*IDF2+……+TFN*IDFN,其中TF1为查询词1对网页的TF值,IDF1对一个查询词针对所有结果的IDF
一个单词的TF-IDF=TF*IDF
通过以上定义我们可以看到:
TF-IDF主要作用是衡量一个网页和某个查询的相关性,适用范围为搜索结果的排序。
TF只是衡量了关键词在一个网页中的出现频率。
IDF则衡量了关键词在整个文档集中的权重。
如果一个词在某一个网页中出现的频率高,它又在整个文档集中占有比较高的权重,显然,这个词重要,权重比较大。也就是说这个词的TF-IDF积比较大。
这样以来,单个网页与查询的相关性其实就是一个查询中的各关键词的TF-IDF的求和。
针对一个关键词的TF-IDF来说,可以它用来衡量关键词在单个网页中权重。
- TF-IDF:网页和某个查询的相关性
- 从网页相关性TF-IDF到余弦定理的新闻分类的程序实现
- [转]搜索引擎的文档相关性计算和检索模型(BM25/TF-IDF)
- 如何确定网页和查询的相关性
- 如何确定网页和查询的相关性
- Lucene TF-IDF 相关性算分公式
- [转]: 如何确定网页和查询的相关性
- 理解TF和TF-IDF
- TF/IDF的理解和实现
- TF和IDF
- 中文分词和TF-IDF
- 中文分词和TF-IDF
- 中文分词和TF-IDF
- 数学之美 系列九 -- 如何确定网页和查询的相关性
- 数学之美 系列九 -- 如何确定网页和查询的相关性
- 数学之美 系列九 -- 如何确定网页和查询的相关性
- 数学之美 系列九 -- 如何确定网页和查询的相关性
- 数学之美 系列九 -- 如何确定网页和查询的相关性
- CSDN博客排名
- 使用ICU4J探测文档编码
- 使用ICU进行字符集探测 文档译稿
- 正则表达式中Matcher的group()、start()、end()带参方法解析
- 失败的方案
- TF-IDF:网页和某个查询的相关性
- MyEclipse安装FatJar
- Java Enum
- Linux crontab定时执行任务
- ubuntu 9.10 中国科学技术大学源(sources.list)
- java 乱码问题-Dfile.encoding=UTF-8
- 安全的从双系统中删除Ubuntu并正常引导Windows
- ubuntu 10.04安装sun版本jdk
- ubuntu 10.04安装小企鹅(fcitx)输入法
原创粉丝点击
热门IT博客
热门问题
老师的惩罚
人脸识别
我在镇武司摸鱼那些年
重生之率土为王
我在大康的咸鱼生活
盘龙之生命进化
天生仙种
凡人之先天五行
春回大明朝
姑娘不必设防,我是瞎子
四川美景
四川地形图
四川名人
四川车牌
四川穷吗
四川汽车
四川在线网
四川日报
四川土特产
四川文化
四川美食
四川简介
四川教育
四川在哪
四川吧
四川风景
四川游
四川气候
四川高考
小四川
四川招聘
四川图片
四川旅行
四川市排名
四川特产
四川的特产
玩转四川
四川为什么叫四川
四川哪四川
四川哪个省
四川在那里
四川省成都
四川在
四川是哪四川
四川大
四川成都市
下四川
四川8633成都叫
四川8633成都叫你
四川省资助网
四川8633事件