java批量导入数据到es中出现数据重复问题解决方案
来源:互联网 发布:复制文件夹 linux 编辑:程序博客网 时间:2024/06/06 17:10
今天在网上找了一个批量数据导入到es中的java代码,代码主要逻辑如下:
// 读取要导入数据的文件BufferedReader br = new BufferedReader(new FileReader("D:\\test\\test.txt"));String json = null;int count = 0;// 开启批量插入BulkRequestBuilder bulkRequest = client.prepareBulk();while ((json = br.readLine()) != null) {bulkRequest.add(client.prepareIndex("test", "all").setSource(json));// 每一千条提交一次if (count % 1000 == 0) {bulkRequest.execute().actionGet();System.out.println("提交了:" + count);}count++;}bulkRequest.execute().actionGet();System.out.println("插入完毕");br.close();运行后发现一个问题,我100多万条的数据,导入到es中怎么生成了1000多万条,而且还是在没有完全导入的情况下
然后用小批量数据导入到es,再把这些数据导出来,发现有好多重复的数据
为什么会重复呢,原因是在每一千条提交一次代码这块,第一次一千条提交了,并没有把bulkRequest置空,所以第二次提交的时候,会提交两千条,包括第一次已经提交的一千条,然后我们自己也没有设置_id,所以es会自动给数据生成一个_id,即使是重复的数据,搞清楚了原因,下面来说解决方法,主要有两种:
第一种就是在提交了一千条后,对bulkRequest进行重置,因为bulkRequest并没有重置的方法,所以可以新建一个bulkRequest,类似于重置,具体代码如下:
// 读取要导入数据的文件BufferedReader br = new BufferedReader(new FileReader("D:\\test\\test.txt"));String json = null;int count = 0;// 开启批量插入BulkRequestBuilder bulkRequest = client.prepareBulk();while ((json = br.readLine()) != null) {bulkRequest.add(client.prepareIndex("test", "all").setSource(json));// 每一千条提交一次if (count % 1000 == 0) {bulkRequest.execute().actionGet();//此处新建一个bulkRequest,类似于重置效果bulkRequest = client.prepareBulk();System.out.println("提交了:" + count);}count++;}bulkRequest.execute().actionGet();System.out.println("插入完毕");br.close();第二种就是自己设置_id,确保每一条数据只有一个_id,这样的话,即使数据重复了,因为_id是一样的,所以es会进行更新,这样的话并没有从根源上解决数据重复的问题,只是重复数据会更新,这样的话效率会慢,具体代码如下:
// 读取要导入数据的文件BufferedReader br = new BufferedReader(new FileReader("D:\\test\\test.txt"));String json = null;int count = 0;// 开启批量插入BulkRequestBuilder bulkRequest = client.prepareBulk();while ((json = br.readLine()) != null) { //设置_id为countbulkRequest.add(client.prepareIndex("test", "all", String.valueOf(count)).setSource(json));// 每一千条提交一次if (count % 1000 == 0) {bulkRequest.execute().actionGet();//此处新建一个bulkRequest,类似于重置效果System.out.println("提交了:" + count);}count++;}bulkRequest.execute().actionGet();System.out.println("插入完毕");br.close();
建议使用第一种方法,效率会快很多。
阅读全文
0 0
- java批量导入数据到es中出现数据重复问题解决方案
- Excel数据导入ArcGIS中出现的投影问题解决方案
- 把excel中的数据批量导入到mysql数据中
- 批量导入数据到数据库
- elasticsearch bulk数据--ES批量导入json数据
- 查看logstash 导入数据到es中,数据导入的数量
- 项目插入重复数据问题解决方案
- 将本地文件中数据批量导入到远程数据库中
- JAVA工具类(5) --- 批量导入excel表格数据到数据库中
- ②Excle数据批量导入到Oracle数据库中
- 使用python,批量导入数据到elasticsearch中
- 从数据库批量导入数据到eclipse/studio中
- 批量导入excel表格数据到数据库中
- 使用Java 的jxl 批量导入数据到数据库
- java把excel数据批量导入到数据库
- JAVA Excel数据批量导入到SQL数据库
- 使用java MapReduce job 批量导入大额数据到Hbase
- 从Excel导入数据到vi文件中遇到问题解决
- count(*) 与count(1)与count(主键)
- 双向队列
- 如何更高效的使用 Gradle, 快速build apk
- Intellij IDEA 出现“Usage of API documented as @since 1.6+”的解决办法
- jstl select <c:if test下拉菜单不能被选中!
- java批量导入数据到es中出现数据重复问题解决方案
- 获取安卓点击返回事件
- vue2.0 transition -- 动画使用心得
- 由看雪.Wifi万能钥匙 CTF 2017 第4题分析linux double free及unlinking漏洞
- window.location方法获取URL
- 删除VS2015
- How to cast List<Object> to List<MyClass> Object集合转换成实体集合
- jquery插件DataTable,每次调用都访问
- vi命令修改文件及保存的使用方法