使用python自动化处理三方数据入库工作

来源:互联网 发布:淘宝虚假交易规则 编辑:程序博客网 时间:2024/06/05 03:26

工作流程描述:通过python爬虫包定向爬取某个监测工具上公司的某个客户的某个指标的广告投放监控数据,放到运营界面上用于指导运营投放策略及技术部的竞价模型的调优。日常的流程是:客户确定需要观察的指标,例如客户A需要北上广这三个城市的广告投放占比为40%,40%,20%,通过在服务器后端的爬虫中设置相应的参数得到数据,将得到的数据进行进一步处理,录入到mysql的数据库中。

 

Python自动化脚本处理的目标描述:

1.    通过输入参数,判断客户需要什么样的监测指标,判断需要将数据输入到mysql哪个库里面(客户有时候关心target  audience,有时候关心audiencereach的比例,这两个需求在mysql中有不同的库表存储)

2.    对爬虫运行之后生成的数据定向输出到文件中,对文件的内容进行文本处理,判断生成的数据字段是否存在,存储到mysql的那一栏数据项中。

3.    将python自动化处理的过程在服务器端设置根据不同的客户设置不同的定时任务

 

用到的知识点:

1.python中运行shell命令

2.python读取文本文档

3.python 逐行处理文本文档数据

4.python 将文本文档处理后数据拼接成sql,插入到对应的数据库表中

 

在处理问题的过程中遇到的问题:

1.    python  os.popen(shell)后未能及时将os过程关闭,导致随后的read文档失效

2.    list对象直接.append(object)是不会返回原列表的,所以不能a=list.append(str)

3.    保持好习惯注意每次生成的文件的及时删除


选取部分代码,以便日后更加清晰的记忆