Mongodb数据库去重
来源:互联网 发布:移动4g突然连不上网络 编辑:程序博客网 时间:2024/04/27 13:57
只写干货
写了个爬虫,爬了点数据。由于没有做好爬虫重启和数据库检索,爬取的数据有重复。
如何查看未重复数据的数量:
- 进入命令行,切换到mongo shell;
- use 你的数据库名;
- db.要操作的表名.distinct("针对数据进行区分的键名").length
编写一个去重的脚本
mongodb 在内部是用js来管理的。所以,写一个js文件:
var duplicates = [];db.你的collection名.aggregate([ { $group: { _id: { 针对数据进行区分的键名: "$针对数据进行区分的键名"}, dups: { "$addToSet": "$_id" }, count: { "$sum": 1 } }}, { $match: { count: { "$gt": 1 } }}],{allowDiskUse: true}).forEach(function(doc) { doc.dups.shift(); doc.dups.forEach( function(dupId){ duplicates.push(dupId); } )})printjson(duplicates);db.你的collection名.remove({_id:{$in:duplicates}})
执行js脚本
在shell中,注意不是在mongo shell 中,输入mongo 你的数据库名 刚才写的js文件的绝对路径
不到2秒就完事儿了,执行速度还可以。不过也可能是我数据量比较小,原始数据约148000条,重复的约有14000条。
后记
重要的还是要做index,在插入的时候就检查。
阅读全文
1 0
- Mongodb数据库去重
- mongodb分组去重
- MongoDB去重
- MongoDB 分组, 去重(转)
- mongodb篇二:mongodb克隆远程数据库,去重查询的命令及对应java语句
- 数据库去重
- 数据库去重问题
- oracle数据库去重
- 数据库数据去重
- 数据库去重
- mysql数据库去重
- 数据库去重
- 数据库去重
- 数据库去重
- 数据库去重
- 数据库去重
- MongoDB--MapReduce分组去重用法
- ndoejs+mongodb 开发2:去重
- php环境搭建
- 设计模式前序
- 2778: 买就打折,不买打骨折
- nyoj20 吝啬的国度(dfs)
- eclipse本地调试tomcat服务器代码,找不到server
- Mongodb数据库去重
- LeetCode:Two Sum
- 表单序列化为JSON对象 serializeObject
- Windows下安装nvm和node.js
- 温泉篝火mod
- Markdown 绘制 UML 图 -- PlantUML + Gravizo
- Struts2入门
- salt python接口使用分组
- 检测浏览器是否支持某css属性
原创粉丝点击
热门IT博客
热门问题
老师的惩罚
人脸识别
我在镇武司摸鱼那些年
重生之率土为王
我在大康的咸鱼生活
盘龙之生命进化
天生仙种
凡人之先天五行
春回大明朝
姑娘不必设防,我是瞎子
来宾市
来宾论坛
来宾火车站
来宾旅游
来宾房价
柳州到来宾
来宾景点
来宾邮编
来宾房地产
南宁到来宾
来宾红豆网
来宾市旅游
来宾网
广西来宾市
红豆网来宾
来宾汽车站
介绍来宾
来宾吧
来宾红豆论坛
来宾红豆社区论坛
红豆来宾论坛
广西来宾为什么叫鬼城
红豆社区来宾论坛
来宾市纪委监察网
来宾红豆论坛红豆社区
来宾红豆社区
来宾红豆论坛网
来宾论坛红豆社区
来宾论坛一掌上红豆
来宾红豆网论坛
来宾市连锁项目排行
来宾市人民医院
红豆论坛来宾
来宾邮政编码
来宾招商项目排行
来宾市人才网
红豆网论坛来宾
婚礼感谢来宾的话
红豆网来宾社区论坛
来宾房价2019现房在售楼盘
来宾二手拖拉机