知乎爬虫之1:开篇序言
来源:互联网 发布:爱快路由 windows版 编辑:程序博客网 时间:2024/04/30 02:28
在知乎看到一个可视化话题的文章,所以一时心血来潮,打算用Java也写一个爬虫并且集成到Spring中,结合ECharts生成人物关系,当然,既然爬一次,个人信息也都要获取到。
那么今天起起(结束日未知,目录也会根据实际情况进行更新),我将写一个系列的爬取知乎的爬虫文章,一直到数据可视化完成(完成后,爬虫部分将使用Scala重写)。
本文由博主原创,转载请注明出处,原文链接:sweets.cf
git爬虫项目地址(关注和star在哪里~):https://github.com/MatrixSeven/ZhihuSpider
1. 预计可视化部分包括
- 人物关系可视化
- 人员地理分布可视化
- 人员大学分布可视化
- 男女比例可视化
- 用户点赞可视化
2. 预计内容和目录
- 开篇感言
- 爬虫流程设计
- 如何过滤重复数据
- 如何在爬取时创建人物关系
- 登陆知乎
- 分析请求
- 模拟请求
- 登陆成功
- 抓取页面数据
- jsoup抽取页面内容
- 优化
- 使用多线程加速
- 使用队列减少数据库访问
- 实现LRU提高缓存命中率
- 基于SpringCloud的简单应用
- 介绍
- 简单配置
- 扩展内容
- 整合Mybatis
- 编写Jsonp跨域请求API
- 走起苦逼的前端
- 使用Bootstrop布局
- 引入ECharts图形库
- 再见,吹牛结束。
0 0
- 知乎爬虫之1:开篇序言
- blog之开篇序言
- 知乎爬虫之5:爬虫优化
- Java知乎爬虫之抓取知乎答案
- 知乎爬虫之模拟登录
- 知乎爬虫之3:请求分析
- Python爬虫之模拟登陆知乎
- Python爬虫之知乎图片抓取
- 爬虫-知乎用户关系之关注
- 知乎爬虫之2:爬虫流程设计
- 知乎爬虫
- 知乎爬虫
- python 爬虫 知乎
- 知乎爬虫
- python爬虫知乎
- 知乎图片爬虫
- JAVA知乎爬虫
- 知乎爬虫
- 基于github page和hexo搭建个人博客
- iOS 使用AFN for 循环上传多张图片至服务器,用户手机项目上面的图片顺序查看
- YII2框架引用js以及css 文件
- C和C++的区别?如何学习C++?(转)
- Why C++ Is Not “Back”
- 知乎爬虫之1:开篇序言
- 自守数
- 【Derivation】任何矩阵都相似与Jordan标准形证明
- Spring配置文件applicationContext.xml 找不到的问题
- addEventLoad
- HashSet去重
- 《Servlet与JSP核心编程》学习笔记-20161128
- 一些 Linux 桌面小技巧
- Android Notification的完整例子