如何爬取了知乎用户信息,并做了简单的分析
来源:互联网 发布:sql 替换字符 编辑:程序博客网 时间:2024/04/29 11:49
版权声明:本文为博主原创文章,转载请注明出处,博客地址为 http://blog.csdn.net/forezp ,谢谢。
目录(?)[-]
- 一使用的技术栈
- 二数据成果
- 三简单的可视化分析
- 四爬虫架构
- 五编码
- 六如何获取authorization
- 七可改进的地方
- 八关于ELK套件
- 九结语
文章出处http://blog.csdn.net/liuyuehui110/article/details/68961006#6729808
一、使用的技术栈:
- 爬虫:python27 +requests+json+bs4+time
- 分析工具: ELK套件
- 开发工具:pycharm
二、数据成果
三、简单的可视化分析
1.性别分布
- 0 绿色代表的是男性 ^ . ^
- 1 代表的是女性
- -1 性别不确定
可见知乎的用户男性颇多。
2.粉丝最多的top30
粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。
3.写文章最多的top30
四、爬虫架构
爬虫架构图如下:
说明:
- 选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。
- 抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。
- 解析该用户的个人信息,并存取到本地磁盘。
- logstash取实时的获取本地磁盘的用户数据,并给elsticsearch
- kibana和elasticsearch配合,将数据转换成用户友好的可视化图形。
五.编码
爬取一个url:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
解析内容:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
存本地文件:
- 1
- 2
- 3
- 4
- 5
- 1
- 2
- 3
- 4
- 5
代码说明:
* 需要修改获取requests请求头的authorization。
* 需要修改你的文件存储路径。
源码下载:点击这里,记得star哦!
六.如何获取authorization
- 打开chorme,打开https://www.zhihu.com/,
- 登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)
- 点击关注,刷新页面,见图:
七、可改进的地方
- 可增加线程池,提高爬虫效率
- 存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。
- 存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。
- 对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。
八.关于ELK套件
关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/
另外logstash的配置文件如下:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
九、结语
从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。最后,本文仅用作交流学习。如果知乎告知我侵权,我会立刻删除本文。
0 0
- 如何爬取了知乎用户信息,并做了简单的分析
- 如何爬取了知乎用户信息,并做了简单的分析
- 我用Python爬了7W知乎用户信息,终于捕获了心仪小姐姐......
- 使用Scrapy爬取百万知乎用户信息
- Python简单知乎爬虫--爬取页面的图片并下载到本地
- Python简单知乎爬虫--爬取页面的图片并下载到本地
- 用Java做了个简单的取色软件
- 知乎问答-如何做一个软件需求分析师
- Android(Java) 模拟登录知乎并抓取用户信息
- Android(Java) 模拟登录知乎并抓取用户信息
- php爬虫:知乎用户数据爬取和分析
- Python爬虫从入门到放弃(十九)之 Scrapy爬取所有知乎用户信息(下)
- 做了一个flex的简单尝试
- 今天做了个简单的hash
- KVO/KVC做了简单的介绍
- 做了三个简单的题目
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- 用WebCollector制作一个爬取《知乎》并进行问题精准抽取的爬虫(JAVA)
- 删除右键菜单
- Android之绘制文本(FontMetrics) 获取文本高度
- 蓝桥杯 快速排序
- 安卓webview和js+html交互利用的addJavascriptInterface和webview.loadUrl("javascript:**");
- String、StringBuffer和StringBuilder
- 如何爬取了知乎用户信息,并做了简单的分析
- xshell连接ubantu connection failed
- Unity -- Json文件读取
- 1859: Gone Fishing
- Mac jdk 版本的切换
- Permutation
- 简单联网判断Dome
- swoole内存管理分析
- Linux下Matlab命令小结