push-推送部署统计数据重复-问题处理

来源:互联网 发布:凡科域名 编辑:程序博客网 时间:2024/06/08 03:41

push-推送部署统计数据重复-问题处理


 移除点击此处添加图片说明文字

  首先来看需求。

 移除点击此处添加图片说明文字

​我们发现确实重复了,那么一开始估计是无从下手,没关系,我们有思路。

首先找到文档:

 移除点击此处添加图片说明文字

看看页面

 移除点击此处添加图片说明文字

svn代码位置在哪里。

 移除点击此处添加图片说明文字

检下来

 移除点击此处添加图片说明文字

​然后。

 移除点击此处添加图片说明文字

​这个可以一路追到:

 移除点击此处添加图片说明文字

​到这里有两个分支,我们要看到使用的数据库,和使用的表。所以依次挨个进去看。

这个是url。

 移除点击此处添加图片说明文字

这个是库

 移除点击此处添加图片说明文字

​这个是表的操作查询:

 移除点击此处添加图片说明文字

​可以看到库是:

$uri = 'mongodb://192.168.0.141:27010';

库:connection->push_report;

$db->push_detail_statistics_deploy;

ok,我们进去xshell

我们发现真的有很多重复的,一开始我是手动删除,后来气得直接删了

db.push_detail_statistics_deploy.find({"pt":"2017-09-05", "udcnt" :1932});

db.push_detail_statistics_deploy.remove({ "_id" : ObjectId("59af4aff813b1f31b86053bb"),"pt":"2017-09-05"});

干脆直接删除吧,然后直接重新跑。

db.push_detail_statistics_deploy.remove({"pt":"2017-09-05"});

 移除点击此处添加图片说明文字

​数据已经全部被删除了。

然后我们去看步骤,因为push以前也说过嘛,有三步,这个应该是出现在第三步,从hive往mongo同步时出现了问题了。否则就是hive平台出现了问题。

这里我们先看

 移除点击此处添加图片说明文字

​第一个是hive平台算数据入hive表,第二个红框框是执行jar文件,第三个红框就是我们的hive表同步到mongo了。我们这里执行

cd /etl/tools/etl-python/push;/opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop jar /home/OTAtest/ToMongo-0.0.1-SNAPSHOT-jar-with-dependencies.jar push_detail_statistics_deploy 2017-09-05 2017-09-05   > ./hive2Mongo.log

注意时间是9月5号的。

 移除点击此处添加图片说明文字
原创粉丝点击