网页集合形成这样的倒排文件预处理
来源:互联网 发布:小米电视 跳过wifi网络 编辑:程序博客网 时间:2024/05/18 03:52
从网页集合形成这样的倒排文件过程中的几个主要问题,即我们所说的“预处理”。主要包括四个方面,关键词的提取,“镜像网页”(网页的内容完全相同,未加任何修改)或“转载网页”(near-replicas,主题内容基本相同但可能有一些额外的编辑信息等,转载网页也称为“近似镜像网页”)的消除,链接分析和网页重要程度的计算。
作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p= {t1, t2, …,tn}。一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率(efficiency)考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stopword)。这样,对一篇网页来说,有效的词语数量大约在200个左右。
- 网页集合形成这样的倒排文件预处理
- 倒排文件的应用
- 倒排文件
- 倒排文件索引
- 倒排文件
- 倒排文件(二):多特征倒排文件
- 倒排文件索引结构
- 倒排文件(一)
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 倒排文件索引(Inverted File Index)的建立
- 帅哥是这样形成的
- 倒排索引的基础知识
- 倒排索引的建立
- 倒排句子的单词
- 搜索服务子系统-结果排序
- 链接分析
- ADO连接MS SQL
- 重复或转载网页的消除
- 软件考试过关了
- 网页集合形成这样的倒排文件预处理
- 预处理过程每个元素
- 神经元模型
- Qt4.5 QFrame
- 用VBA下载google图片
- 机器人上的操作系统BrickOS在windows的详细安装
- 在flash中命名的mc实例在flex编辑环境下访问
- IMS基本概念之 S-CSCF委派
- Observer模式