Python3.5.2+pymssql+selenium+帆软Finereport实现爬虫爬取泛微OA流程节点操作者组

来源:互联网 发布:手机怎样删除淘宝评价 编辑:程序博客网 时间:2024/05/29 19:08

由于集团快速扩张,为分子公司制订的流程越来越多。现在所有流程共计约700个(包含历史版本、模板),正在使用的300余个,只有一人负责维护流程,平常还要兼管其他事务,管理效率遇到瓶颈。

需求:Python3.5.2+pymssql+selenium实现爬取流程节点操作者内容,使用帆软Finereport以报表的形式展示,这也是刚入门Python写的第一个爬虫脚本。

实现的功能:

1、可选只爬取启用中的流程,或爬取全部流程;

2、自动判断是否有新增流程,如果有,将新增的流程ID插入数据库;

3、提取符合抓取条件的流程ID,使用selenium逐个抓取,期间使用到xpth,建议使用新版本谷歌浏览器,可以一键复制元素xpath!

不使用Request的原因是一直请求不到具体页面,添加header、cookie都无法实现。

最后使用pyinstaller打包,win10x64正常运行,WinServer2012x64正常运行。

几个注意点:

1、若打包后运行报错No module named xx,报缺少哪个模块就import哪个模块,使用pycharm有时会自动帮你导入一些常用包,但是打包时不会自动引入,必须手动引入。

2、平均爬取一个页面2-3秒,更新300个流程需要不到20分钟。

效果展示:



0 0
原创粉丝点击