搜索引擎早期重要论文推荐系列【3】In-memory URL Compression
来源:互联网 发布:知无涯者 百度云 编辑:程序博客网 时间:2024/05/17 01:28
《 In-memory URL Compression》作者Kasom Koht-arsa,Surasak Sanguanpong
这是一篇典型的学术论文,论文的角度旨在在爬虫的URL库中使用压缩的方式。
其实搜索引擎的爬虫使用压缩的URL库意义不大,因为每个爬虫的抓取负荷很小,
磁盘读取和写入的量也没有那么大。每个URL携带的数据也很有限,因此不压缩
反而更好。
本文的价值我认为反而是一些诸如日志挖掘,点击分析的时候可能会用到类似的压缩。例如
做一个关键词<->URL的双向查询的库,且包含时间维度,则进行URL的压缩就很有必要了。
例如给定一个关键词,要知道在一定时间范围内,给那些URL带了量,带量的比例等等。
给定一个URL,要知道在一段时间内,那些关键词带了量,带量的比例等等。
本文给出的结果是压缩了50%的URL库,且由于是用AVL的结构大大提高了检索查询的速度。
另外,本文行文流畅,实验做得也比较精彩,堪称论文典范。
推荐下载:http://anres.cpe.ku.ac.th/pub/url-compression-ncsec.pdf
推荐理由:
工程价值 2星
学术价值 4星
可读性 5星
- 搜索引擎早期重要论文推荐系列【3】In-memory URL Compression
- 搜索引擎早期重要论文推荐系列【1】
- 搜索引擎早期重要论文推荐系列【2】
- 搜索引擎早期重要论文推荐系列【4】
- 搜索引擎早期重要论文推荐系列【5】
- 搜索引擎早期重要论文推荐系列【6】
- 搜索引擎早期重要论文推荐系列【7】《Searching the Web》
- 搜索引擎早期重要论文推荐系列【8】《Implementation of a Modern Web Search Engine Cluster》
- 论文阅读-- Memory Errors in Modern Systems
- HTTP Response Compression in a URL rewrite enabled IIS installation
- [论文解读] Deep Compression
- compression image in ROS
- Oracle Database 12c In-Memory 学习推荐博文
- 搜索引擎推荐
- 重要URL
- 问题分享:Greenplum Compression failed: insufficient memory
- IIS Compression in IIS6.0
- flash memory 相关论文
- 黑莓自定义HorizontalFieldManager
- 如何承接软件外包项目
- java对象序列化学习笔记
- linux 审计
- 在InitDialog中设置焦点不起作用 SETFOCUS
- 搜索引擎早期重要论文推荐系列【3】In-memory URL Compression
- linux命令
- Oracle数据操作和控制语言详解
- Could not obtain connection to any of these urls:
- mssql 2000数据库时间长了,日志文件就会增大,清理日志
- 关于'GetModuleHandleEx': identifier not found
- [整理]集成SSH后,DAO工具类
- Struts2,spring&JPA(Hibernate)的集成
- Linux网络协议栈之网络设备管理