lucene tvx tvd tvf 文件
来源:互联网 发布:java并发简单编程代码 编辑:程序博客网 时间:2024/05/29 04:43
我们平时看到的文件,其本质上是有词组成的,我们可以看做是词的集合,当我们把相同的词就可以看做是一个词的向量了。
这里的tvx tvd tvf 就是以这种形式表示doc的:
tvx : doc的数量,以及每个doc 在 tvd 以及 tvf 中开始的位置。
tvd : 每个doc的域信息: 有多少个域,具体是那几个域,每个域向量在tvf文件中的位置,
tvf : 每个doc 的每域的 向量集合 ,向量集合中的每个元素就是一个 term: term文本,次数,位置等信息
这三者之间的关系,我们还是引用告诉的总结:
http://blog.csdn.net/forfuture1978/archive/2009/12/10/4976793.aspx
我们最后来看看源代码
1 首先在tvx 文件中写入 tvd 和tvf 开始的位置
2 在tvd中写入当前doc的字段的个数,然后遍历所有的字段,在tvd 中,写入每个字段的term 数目,已经每个term 具体信息在tvf中的位置, 最后写tvf信息,遍历每隔term ,写入每个term 信息。
- lucene tvx tvd tvf 文件
- Lucene索引文件结构图之一(prx&nrm&tvx&tvd&del&tvf)
- lucene结构详解之四词向量(Term Vector) 的数据信息(.tvx,.tvd,.tvf)
- 索引结构(正向索引结构)--tvx,tvf,tvd
- TVF 的应用和比较
- Lucene字典文件结构
- lucene的索引文件
- Lucene 研究:文件存储
- lucene的索引文件
- lucene frq 文件
- lucene 高亮 文件
- Lucene索引文件示例
- lucene 索引文件简介
- Lucene系列-索引文件
- lucene初探(-):lucene基本,实现文件查找
- 基于Lucene的文件检索
- lucene的索引文件结构
- lucene tis和 tii 文件
- 封装ipc,共享内存,消息队列,信号量
- update用low_priority让update不锁定表
- http1.0 http1.1 keepalive
- [SQL Server] 统计信息创建后不再更新
- DataTable排序
- lucene tvx tvd tvf 文件
- HDU 2276 Kiki & Little Kiki 2
- 交易中间件分析及三款典型产品介绍
- shell使用if时判断参数介绍
- 链表-简易学生成绩管理
- C/C++中的日期和时间 TIME_T与STRUCT TM转换
- NetReceive函数--精简的网络数据包解析代码,支持802,VLAN
- Why a JavaScript hater thinks everyone needs to learn JavaScript in the next year
- ......检测到有潜在危险的 Request.Form 值的解决办法