Nutch2 WebPage 字段解释
来源:互联网 发布:php中if exists用法 编辑:程序博客网 时间:2024/06/08 02:38
转载来源:http://blog.csdn.net/itufo/article/details/20535539
版本:
Nutch2.2.1
id
主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息。
headers
标准的http headers ,其中包含非打印字符。Last-Modified 等信息可能于判断网页是否需要更新(仅需发一个head请求,而不是下载整个网页)
text
合并了解析出来的所有文本字段(utf-8),用于普通的检索,不过现在检索一般使用solr,所以这个字段意义不大。
status
记录抓取状态
markers
各个任务的标记(如:dist***injmrk_***updmrk_***ftcmrk_***gnmrk_***prsmrk_**)
parseStatus
parse状态,在执行parseJob之前都是NULL。 ParseStatusCodes.html
modifiedTime
最后更改时间
score
网页重要程度(PR),Nutch2.2.1 使用的是OPIC算法
typ
类型(如application/xhtml+xml)
batchId
批次ID,由generate生成( (curTime/1000) + "-" +randomSeed ), fetch时可选择特定batchId的任务
baseUrl
用于将网页源码中相对链接地址的转为绝对地址,通常就是当前网页的地址,有重定向的情况下,是最终定向到的地址
content
完整的网页源码,未经任何处理(字符集也没转)。
title
title标签里的内容 (已转utf-8编码)
reprUrl
重定向url,将在下一轮抓取,不会立即跟入
fetchInterval
抓取间隔,默认是2592000(30天)
prevFetchTime
上次抓取时间
inlinks
入链(url+linktext)
prevSignature
上次更新时网页签名
outlinks
出链(url+linktext)
fetchTime
下次抓取时间,通常是间隔一个月
retriesSinceFetch
重试次数
protocolStatus
signature
网页签名,用于判断网页是否改变,默认的实现是:org.apache.nutch.crawl.MD5Signature ,采用content的MD5值,另一个方案是org.apache.nutch.crawl.TextProfileSignature,content抽取文本、分词、排序等一系列操作后计算MD5值 TextProfileSignature
metadata
自定义元数据,可以在种子文件里面加,例如: "http://xxxx/xxx.html \t type=news"
阅读全文
0 0
- Nutch2 WebPage 字段解释
- Nutch2 WebPage 字段解释
- (转载)Nutch2 WebPage 字段解释
- Nutch2 WebPage写入数据库的过程分析
- Nutch2.2可以使用的webpage建表语句
- WebPage
- Nutch2.2.1之MySQL数据库的配置和建表webpage语句
- Goolge打开结果网站的两种错误的解释: This webpage is not available
- 数据库连接字段解释
- WKT字段解释
- sip头字段解释
- sip头字段解释
- access_log 字段解释
- sqlserver字段类型解释
- explain字段解释
- sip头字段解释
- package.json字段解释
- friend webpage
- jmeter 逻辑控制器
- 程序员节(10月24日)今天不加班!
- 详解 Cookie 纪要
- tomcat 配置详解
- Java虚拟机-JVM各种参数配置大全详细
- Nutch2 WebPage 字段解释
- springboot-Spring Cloud Security- Spring Cloud OAuth2 -token-redis 接口权限01
- js基础知识点
- 维护篇 20. 入门操作 ❀ 飞塔 (Fortinet) 防火墙
- shell脚本中用到的条件和循环语句
- Centos 6中破坏伪根系统文件/boot/initramfs-version-release.img
- Centos 6中模拟破坏MBR救援模式下修复
- 开机启动流程分析
- yum源安装故障:warning: rpmts_HdrFromFdno: Header V3 RSA/SHA256 Signature, key ID 0608b895: NOKEY