Nutch读取网页字段
来源:互联网 发布:java mysql 时区设置 编辑:程序博客网 时间:2024/05/19 23:29
Nutch的输出文件(不包括临时文件)主要可分为crawldb、index、indexs、linkdb和segments。
Crawldb
(另说:存放下载的URL,及下载的日期,用来页面更新检查时间)
Segments
① / ② crawldb/ linkdb : web link 目录,存放 url 及 url 的互联关系,作为爬行与重新爬行的依据,页面默认 30 天过期 (可以在 nutch-site.xml 中配置)
③ segments : 一存放抓取的页面,与上面链接深度 depth 相关, depth 设为 2 则在 segments 下生成两个以时间命名的子文件夹,比如 ” 20061014163012” ,打开此文件夹可以看到,它下面还有 6 个子文件夹,分别是
(来自apache
crawl_generate : names a set of urls to be fetched
crawl_fetch : contains the status of fetching each url
content : contains the content of each url
parse_text : contains the parsed text of each url
parse_da
crawl_parse : contains the outlink urls, used to update the crawldb
④ indexes : 索引目录,我运行时生成了一个 ” part-00000” 的文件夹,
⑤ index : lucene 的索引目录(使用 luke 工具查看 ),是 indexs 里所有 index 合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问 segments 目录才能获得页面内容
Segments是每轮抓取的时候根据crawldb生成的。存放的信息包括6种content、crawl_fetch、crawl_generate、crawl_parse、parse_da
////////////////////crawl_generate、crawl_fetch、crawl_parse、crawldb的格式//////////////
http://www.163.com/
Status: 5 (fetch_success)
Fetch time: Thu Oct 26 19:20:33 CST 2006
Modified time: Thu Jan 01 08:00:00 CST 1970
Retries since fetch: 0
Retry interval: 30.0 days
Score: 1.0
Signature: 3029c621e26c43797241a8d3
Metadata: null
parse_da
outlink: toUrl: http://cha.so.163.com/so.php?key=001001006&q=???
Content Metadata: nutch.crawl.score=1.0 nutch.content.digest=3029c621e26c43797241a8d3
charset=GB2312 date=Thu, 26 Oct 2006 11:20:33 GMT Cache-Control=max-age=146
Content-Encoding=gzip Content-Length=19628 Connection=close Expires=Thu, 26
Oct 2006 11:23:00 GMT nutch.segment.name=20061026192026 Accept-Ranges=bytes
Server=Apache/2.0.55 (Unix) X-Cache=HIT from www.163.com Vary=Accept-Encoding
Parse Metadata: OriginalCharEncoding=GB2312 CharEncodingForConversio
parse_text是网页的文本信息。
Index
据初步分析index由indexs合并而来的,存放的是索引信息。在非分布式搜索时优先根据查找index文件夹,如果不存在则查找indexs。Indexes:存放每次下载的独立索引目录
Linkdb
Linkdb中存放的是所有超连接及其每个连接的连入地址和锚文本。读取出来的格式如下:
- Nutch读取网页字段
- 读取Nutch爬取的网页内容
- Nutch定时抓取网页
- nutch抓取动态网页
- Nutch源代码研究 Parse网页
- nutch的一些读取命令
- nutch的一些读取命令
- Nutch源代码研究 网页抓取 fetch
- Nutch源代码研究 网页抓取 下载插件
- Nutch源代码研究 网页抓取 数据结构
- nutch+mysql gb2312网页源代码中文乱码
- 怎么用Nutch保存网页源码?
- nutch解析网页时NoClassDefFoundError异常解决方法
- 从数据库读取image字段到网页(BLOB型的)
- 读取nutch爬取的数据内容
- 读取nutch爬取内容方法
- 网页字段抓取
- nutch
- 16--2--2指针变量交换
- SqlServer2005 合并两个字符串的方法
- DXSDK_Jun10安装错误解决!/directX安装错误
- 我心中的计算机学科(二)
- 十六进制数组转换为浮点计算方法两种算法
- Nutch读取网页字段
- SQL语句容易出现错误的地方-连载
- ubuntu suse下让vim支持+y剪切板
- Oracle Query Result Cache
- Android学习---解决Android Graphical Layout 界面效果不显示
- USB转串口 FT232/PL2303/CH340 驱动以及使用体会
- Hibernate中polymorphism=”explicit”和polymorphism=”implicit”区别
- compare gsm cdma
- DBMS_Utility学习