python实现人人网用户数据爬取及简单分析
来源:互联网 发布:php ahp和jhp 编辑:程序博客网 时间:2024/05/29 14:43
这是之前做的一个小项目,这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~
简单来说这个项目实现了,登录人人网并爬取用户数据,并对用户数据进行分析挖掘,最终效果如下:1、存储人人网用户数据(户主的所有好友、户主好友的所有好友、户主及好友关注的公共主页);2、信息可视化,绘制户主好友间的关系网络图;3、数据挖掘,通过分析户主好友关注的公共主页,向户主推荐公共主页。
项目分为三个部分,分别是人人网登录及用户数据爬取与存储、用户关系可视化、公共主页推荐。下面分别介绍这三个部分。
第一部分实现了人人网登录及用户数据爬取与存储。由于之前做过一些用python写网络爬虫的事,所以开始阶段进展顺利。但随后就在登录阶段的重定向问题上遇到了很大的障碍。起初用python的第三方库urllib和urllib2的组合,参考了网上一些方案解决重定向问题,但总是失败。就在快要放弃的时候,偶然发现强大的python已经有一个解决重定向问题的第三方库httplib2了,于是愉快地用起了urllib和httplib2的组合,果然很快解决问题。成功实现人人网登录后,后面的数据爬取和存储问题就不再话下啦!
第二部分实现了用户关系可视化。简单来说,就是用python画了一张人人网好友关系网络拓扑图。这里用到了python的第三方库networkx。
第三部分实现了公共主页推荐。由于第一部分已经爬取了用户关系和所有好友圈用户关注的公共主页信息,所以这里很方便地就能实现一些推荐算法。这里我用了最简单的KNN算法。
最后贴上一张我的人人网好友关系拓扑图吧,很明显的高中和大学两个圈子是不是呢。这里就不贴代码了,如果有兴趣看看具体的代码实现的话,请戳这里好啦。
- python实现人人网用户数据爬取及简单分析
- Python实现人人网爬虫,爬取用户所有状态信息。
- 利用python爬取人人贷网的数据
- java爬取人人网数据
- Python爬虫:爬取人人都是产品经理的数据
- 前程无忧python工作薪资爬取及数据分析
- python简单框架实现爬取NBA球员数据
- 利用python采集分析人人网社交网络数据
- python实现 爬取twitter用户姓名
- 药大贴吧用户数据资料爬取与简单分析
- python简单爬取页面信息及实现打开、关闭浏览器
- php爬虫:知乎用户数据爬取和分析
- 爬取人人贷
- python 爬虫爬取人人网你的好友的所有相册图片
- Python,分析爬取简单waterfall型网页的部分内容
- python爬取数据
- python实现人人网的自动登录
- 如何用Python爬取分析北京二手房数据?
- 开源SlidingMenu笔记(二)
- IDA下MD5算法F5特征
- 红黑树
- 计算机网络 4.网络层与IP协议
- 关于手机线控耳机那点事儿
- python实现人人网用户数据爬取及简单分析
- 社交网络成安全“重灾区” 用户需加强自主防护
- 用alter关键字为Table增加新字段(sqlite)
- C#金额小写转大写
- 文件权限
- 设计模式之服务定位器模式
- sql函数:汉字转换为拼音
- Squares - POJ 2002 哈希
- php设计模式目录