[lucene] setOmitTermFreqAndPositions与setOmitNorms

来源:互联网 发布:中位值评标计算法 编辑:程序博客网 时间:2024/06/06 01:32

+ 测试setOmitTermFreqAndPositions与setOmitNorms后搜索速度的变化
  元数据: zhwiki-20100529-pagelinks.sql(675587k)
  -单次搜索(均是清空缓存后的测试):
     不Omit:  90ms        Omit: 34ms
  -1002次搜索
     不Omit:  34985ms     Omit: 19025ms
+ 兼容性: 旧索引未omit,后面添加的新索引omit,最后合成的最终索引,search的时候可以正确找到doc
+ 先不omit,后omit,最终的index的大小,和一开始就omit的大小差不多:
luming@Xluke:~/luowl/test$ java org.apache.lucene.demo.IndexFiles ../data/split-zhwiki/zhwiki1.txt   // 未omit
Indexing to directory 'index'...
input src file costs 7825 ms
Optimizing...
indexing cost 164911 total ms
172736 total milliseconds
luming@Xluke:~/luowl/test$ ls -lk index/
total 195200
-rw-r--r-- 1 luming luming  16273 2010-07-20 10:34 _0.cfx
-rw-r--r-- 1 luming luming 178914 2010-07-20 10:34 _10.cfs
-rw-r--r-- 1 luming luming      1 2010-07-20 10:34 segments_2
-rw-r--r-- 1 luming luming      1 2010-07-20 10:34 segments.gen
luming@Xluke:~/luowl/test$ java org.apache.lucene.demo.IndexFiles ../data/split-zhwiki/zhwiki2.txt    //这里开始omit
Indexing to directory 'index'...
input src file costs 7984 ms
Optimizing...
indexing cost 185118 total ms
193102 total milliseconds
luming@Xluke:~/luowl/test$ ls -lk index/
total 217252
-rw-r--r-- 1 luming luming 217237 2010-07-20 10:43 _1w.cfs
-rw-r--r-- 1 luming luming      1 2010-07-20 10:43 segments_3
-rw-r--r-- 1 luming luming      1 2010-07-20 10:43 segments.gen
+不omit的话,index的大小
luming@Xluke:~/luowl/test$ ls -lk 1-index
total 407872
-rw-r--r-- 1 luming luming  34129 2010-07-01 14:18 _0.cfx
-rw-r--r-- 1 luming luming 373731 2010-07-01 14:18 _27.cfs
-rw-r--r-- 1 luming luming      1 2010-07-01 14:18 segments_2
-rw-r--r-- 1 luming luming      1 2010-07-01 14:18 segments.gen