python爬虫+mongoDB存储DOTA2比赛数据总结

来源：互联网发布：mac电脑查看ip地址编辑：程序博客网时间：2024/04/27 08:31

dota2比赛数据分析到现在，第一阶段已经差不多结束了。

分析一下这阶段主要的成果。

1、对python有了初步的了解。大概了解了面向对象编程方法，但总觉得思想精髓没体会到。

2、对网络爬虫技术有了一些了解，知道了百度的整个网络原来是爬出来的，以前倒没网这方面想过。并利用python的类库做了一个简单的爬虫，爬了dotamax上比赛的数据。

3、自己定义了一个json数据格式，用来存储每局比赛的数据，并用mongoDB在云服务器上存储，方便在任何地方都可以获取数据。

4、自己做了一些数据分析的函数，包括：任意英雄及组合的胜率，任意两个战队对战的胜率，最常用的英雄组合等。也为输出的结果写了专门的博客进行分析。

再来分析下不足，以及下一步要做的：

1、继续研究python以及面向对象编程，需要买书，还在物色。

2、不再使用爬虫技术获取数据，使用v社提供的webAPI获取数据，这样不再依赖于dotamax上已有的数据，其未分析的数据同样可以得到。

3、更改下存储的数据，原来存储的数据为：对阵双方，胜利方，pick英雄，ban英雄，比赛名称。

准备更增加几项：比赛开始时间戳（与版本挂钩），比赛双方选手（方便分析选手）。

4、为最终目标，无论是神经网络，SVM还是什么其他的算法做准备，另外还有些基本的分析可以添加。

如：选手最爱英雄，选手英雄胜率等。

5、把代码托管到github上，建立开源项目，宣传下，看有没有一起玩的兄弟。

所以，先把目前用到的记录下。嗯。。大概要写3篇的样子。

0 0