[Nutch]使用LUKE查看Solr的索引文件内容
来源:互联网 发布:c语言吧 编辑:程序博客网 时间:2024/05/01 18:00
上一篇博文有介绍使用Solr的命令solrindex建立索引并提交到Solr服务器,那么我们怎么样查看solrindex命令产生的索引内容呢?这就要使用本篇博文要分享的工具LUKE,通过LUKE工具,我们可以很清楚的看到通过solrindex命令产生的索引内容。
1. 下载LUKE工具
点击lukeall-4.0.0-ALPHA.jar,进入下载页面进行下载。
2. 启动LUKE
下载之后在windows系统上面使用命令行启动LUKE:
java -jar lukeall-4.0.0-ALPHA.jar
运行过程:
启动界面:
3. 查看Solr索引
3.1 选择Solr索引的位置
通过点击Browse按钮,会弹出文件夹选择框:
选择打开按钮,选择索引路径:
3.2 查看具体内容
选择Solr的所有路径之后,在Path to Index directory对话框中,其他选择都默认,选择OK按钮,即可进入LUKE的主界面,在Overview栏位显示Solr索引的大致内容:
4. 内容详解
4.1 Overview
总共有11个索引字段:
各个字段名称为:
总共有811个网页:
总共有80468个分词item:
4.2 查看每个字段的内容
选择每个字段,然后选择Show top items按钮,即可在右侧看到详细的Items信息,里面包含了默认的分词信息:
各个字段的含义如下:
anchor
boost
不做索引,没有内容:cache
也不做索引:content
页面的内容:digest
也不做索引:host
从url里面提取的主机信息:id
也是从url中提取出来的:segment
指页面存在哪个segment里面:title
页面的title:tstamp
不做索引:url
分词可以进行搜索的:
4.3 Documents
4.4 search
从Overview的title字段里面选择一个分词进行search,选择:图
在Search栏位,输入:“title:图”,然后选择Search按钮,得到结果:
- [Nutch]使用LUKE查看Solr的索引文件内容
- 使用Luke打开Elasticsearch的索引
- Luke:Lucene索引查看工具
- luke:lucene 索引查看工具
- Luke:Lucene索引查看工具
- [Nutch]Solr命令的使用
- [Nutch]指定LUKE的分词器
- 【Lucene01】索引的建立&Luke的配置使用
- 使用Nutch和Solr抓取并索引网页
- 转:使用Nutch和Solr抓取并索引网页
- 使用Nutch和Solr抓取并索引网页
- Nutch 查看抓取的文件
- Lucene之索引查看工具Luke-yellowcong
- Nutch环境搭建+Solr的使用
- luke的使用
- 使用Tika、Luke工具解析多种类型(word、pdf、txt 等)索引文件
- solr索引库添加新的索引,使用json文件或者xml文件的数据
- 全文索引-lucene,solr,nutch,hadoop之nutch与hadoop
- 安卓中制造一个显示使用了多少时间的方法
- hdoj Bomb 3555 (数位DP&记忆化dfs)好题
- IIR数字滤波器实现(mantlab+C语言)
- 不用加减乘除做加法
- python脚本sqlite3模块的应用
- [Nutch]使用LUKE查看Solr的索引文件内容
- python writelines()函数
- 个人对插件和钩子的理解
- (未完成)Dubbo源码分析(七):Dubbo内核实现之基于SPI思想Dubbo内核实现
- Codeforce 149D(区间dp+括号匹配)
- 1001 of dp
- 屏幕自适应
- poj 1840 Eqs
- 128. Longest Consecutive Sequence