Elasticsearch5 JAVA API数据遍历
来源:互联网 发布:js设置背景颜色 编辑:程序博客网 时间:2024/06/05 18:49
在Elasticsearch老版本中做数据遍历一般使用Scroll-Scan。Scroll是先做一次初始化搜索把所有符合搜索条件的结果缓存起来生成一个快照,然后持续地、批量地从快照里拉取数据直到没有数据剩下。而这时对索引数据的插入、删除、更新都不会影响遍历结果,因此scroll 并不适合用来做实时搜索。Scan是搜索类型,告诉Elasticsearch不用对结果集进行排序,只要分片里还有结果可以返回,就返回一批结果。
在5.X版本中SearchType.SCAN已经被去掉了。根据官方文档说明,使用“_doc”做排序可以达到更高性能的Scroll查询效果,这样可以遍历所有文档而不需要进行排序。
JAVA代码示例:
public class ScrollTest2 {public static void main(String[] args) {JSONObject resultObject = null;Client esClient = ESClientHelper.getInstance().getClient();SearchResponse searchResponse = esClient.prepareSearch("index").setTypes("type").setQuery(QueryBuilders.matchAllQuery()).addSort(SortBuilders.fieldSort("_doc")).setSize(30)// 这个游标维持多长时间.setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();System.out.println(searchResponse.getScrollId());System.out.println(searchResponse.getHits().getTotalHits());System.out.println(searchResponse.getHits().hits().length);for (SearchHit hit : searchResponse.getHits()) {String json = hit.getSourceAsString();try {resultObject = new JSONObject(json);} catch (JSONException e) {e.printStackTrace();}}System.out.println("------------------------------");// 使用上次的scrollId继续访问ScrollTest2 scroll = new ScrollTest2();do{int num = scroll.scanData(esClient,searchResponse.getScrollId());if(num ==0) break;}while(true);System.out.println("------------------------------END");}private int scanData (Client esClient, String scrollId){SearchResponse searchResponse = esClient.prepareSearchScroll(scrollId).setScroll(TimeValue.timeValueMinutes(8)).execute().actionGet();System.out.println(searchResponse.getScrollId());System.out.println(searchResponse.getHits().getTotalHits());int num = searchResponse.getHits().hits().length;System.out.println(searchResponse.getHits().hits().length);JSONObject resultObject = null;for (SearchHit hit : searchResponse.getHits()) {String json = hit.getSourceAsString();try {resultObject = new JSONObject(json);} catch (JSONException e) {e.printStackTrace();}}return num;}}
附:搜索类型(SearchType)介绍
在Elasticsearch5做查询时,可以指定搜索类型:QUERY_THEN_FETCH、DFS_QUERY_THEN_FETCH。
QUERY_THEN_FETCH是默认的搜索方式,这种搜索方式大概分两个步骤,第一步,先向所有的分片发出请求,各分片只返回排序和排名相关的信息(注意,不包括文档document),然后按照各分片返回的分数进行重新排序和排名,取前size个文档。然后进行第二步,去相关的分片中取document。
DFS_QUERY_THEN_FETCH类似于QUERY_THEN_FETCH,多了一个初始化散发(initial scatter)步骤。初始化散发其实就是在进行真正的查询之前,先把各个分片的词频率和文档频率收集一下,然后进行词搜索的时候,各分片依据全局的词频率和文档频率进行搜索和排名,目的是提高搜索的精度。
- Elasticsearch5 JAVA API数据遍历
- elasticsearch5.4的java api
- Elasticsearch5.4 Java API操作
- Elasticsearch5.3 JAVA代码添加数据 Demo
- elasticsearch5.11集成ik+pinyin分词java api
- elasticsearch5.2.2使用java API创建transport client
- Elasticsearch5.4集群(二)java API升级
- hbase 新版本 java api 遍历
- ElasticSearch5.4.3 环境搭建 2017 (5-Java Client Security Api x-pack)
- ElasticSearch5.4.3 环境搭建 2017 (5.1-Java Api x-pack补充说明)
- Elasticsearch5.0新的API规范
- Elasticsearch5.2.1的文档API操作
- 大数据学习[11]:JAVA连接elasticsearch5.6.1操作|问题|分析
- Java客户端连接elasticsearch5.5.3实现数据搜索(基于xpack安全管理)
- Java客户端连接elasticsearch5.5.3实现数据搜索(基于xpack安全管理)
- elasticsearch5.4.0 java开发注意事项
- Elasticsearch5.4 Java编程注意事项
- java API之Map集合遍历
- Git 学习命令汇总
- 兰顿蚂蚁
- Mac下 Vim删除多行快捷键
- 运维技术盘点
- 打印空三角形 实心三角形等各种三角
- Elasticsearch5 JAVA API数据遍历
- Linux中记录终端(Terminal)输出到文本文件
- python 实现简单的redis 消息订阅推送
- JAVA学习,记录成长
- poj3415Common Substrings(后缀数组+单调栈)
- Linux 挂截硬盘方法
- 分块算法
- 5----编程打印水仙花数
- ViewPager实现轮播图(可无限向左或向右滑动)