swish-e搜索引擎, 源代码分析(6)
来源:互联网 发布:鲁谷74号院网络 编辑:程序博客网 时间:2024/04/27 15:47
在前面的部分中,对于swish-e读取文件内容,将分析所得的词条加入到hash表中的过程。
当所有的词条处理完成以后,此时在sw->hashentries[VERYBIGHASHSIZE]表中则存放了所有的词条。
此时需要对于这些词条进行一定的压缩处理,才能最后写入到索引文件中。
本节开始,对于词条信息的压缩过程进行阐述。
在index.c L1200开始进行Compress the entries。
2.4 词条信息的压缩过程
2.4.1 CompressCurrentLocEntry词条压缩算法
遍历hashentries哈希数组中的词条,通过compress_location对于位置信息进行压缩。
2.4.2 compress_location词条位置信息压缩过程
- 在MOD_Index *idx = sw->Index idx结构中有compression_buffer变量,用于压缩的buffer;
- 先压缩metaID,然后压缩filenum、frequency,已经position信息。
2.4.3 compress_location_values压缩过程
通过以上的处理,对于filenum,频率都进行了压缩。
- swish-e搜索引擎, 源代码分析(6)
- swish-e搜索引擎,源代码分析(7)
- swish-e搜索引擎,代码分析(8)
- swish-e搜索引擎,代码分析(9)
- SWISH-E搜索引擎用法
- Swish-e搜索引擎中的数据压缩算法(一)
- Swish-e搜索引擎中的数据压缩算法(二)
- swish-e索引引擎分析
- swish-e代码分析,索引部分(1)
- swish-e代码分析,索引部分(2)
- swish-e代码分析,索引部分(3)
- swish-e代码分析,索引部分(4)
- swish-e代码分析,索引部分(5)
- 6-(E-Teller源代码分析)SetRequestEncodingUtil
- 6框开源代码搜索引擎
- 4-(E-Teller源代码分析)AgreeApplicationInitializer
- 5-(E-Teller源代码分析)LocalDirectorySessionFactoryBean
- 搜索引擎源代码
- 4、C++各大有名库的介绍——网络通信
- 不同后缀的软件包的安装汇总
- 理解form的get和post
- [电子版] ]李开复自传:世界因你不同
- 习惯养成
- swish-e搜索引擎, 源代码分析(6)
- Exception_07
- 5、C++各大有名库的介绍——XML
- 寸草怎报三春晖
- 解决oracle 没有监听器的办法
- 十大VMware Workstation使用技巧
- Cisco 设备及板卡序列号查询方法
- 6、C++各大有名库的介绍——科学计算
- 转载:java程序员的成长之路