[Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶
来源:互联网 发布:手机怎么设置4g网络 编辑:程序博客网 时间:2024/04/29 19:13
身边的小伙伴们很多都喜欢刷知乎,当然我也不例外,
但是手机刷太消耗流量,电脑又不太方便。
于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=。=
知乎下巴,音译就是知乎下吧 ~
首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。
需求如下:
1.模拟访问知乎官网(http://www.zhihu.com/)
2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐
3.下载指定分类中的所有问答,比如:投资,编程,挂科
4.下载指定回答者的所有回答
5.最好有个一键点赞的变态功能(这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了!)
那么需要解决的技术问题简单罗列如下:
1.模拟浏览器访问网页
2.抓取关键数据并保存到本地
3.解决网页浏览中的动态加载问题
4.使用树状结构海量抓取知乎的所有内容
好的,目前就想了这些。
接下来就是准备工作了。
1.确定爬虫语言:由于以前写过一系列爬虫教程(点击这里),百度贴吧,糗事百科,山东大学的绩点查询等都是用python写的,所以这次决定使用Java来写(喂完全没有半毛钱联系好吗)。
2.科普爬虫知识:网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请(点击这里)。
3.准备爬虫环境:Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句,一个好用的浏览器对于爬虫来说非常重要,因为首先你需要自己浏览网页知道你需要的东西在哪里,你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器,或者谷歌浏览器,它们的右键审查元素和查看源代码的功能都非常强大。
但是手机刷太消耗流量,电脑又不太方便。
于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=。=
知乎下巴,音译就是知乎下吧 ~
首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。
需求如下:
1.模拟访问知乎官网(http://www.zhihu.com/)
2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐
3.下载指定分类中的所有问答,比如:投资,编程,挂科
4.下载指定回答者的所有回答
5.最好有个一键点赞的变态功能(这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了!)
那么需要解决的技术问题简单罗列如下:
1.模拟浏览器访问网页
2.抓取关键数据并保存到本地
3.解决网页浏览中的动态加载问题
4.使用树状结构海量抓取知乎的所有内容
好的,目前就想了这些。
接下来就是准备工作了。
1.确定爬虫语言:由于以前写过一系列爬虫教程(点击这里),百度贴吧,糗事百科,山东大学的绩点查询等都是用python写的,所以这次决定使用Java来写(喂完全没有半毛钱联系好吗)。
2.科普爬虫知识:网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请(点击这里)。
3.准备爬虫环境:Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句,一个好用的浏览器对于爬虫来说非常重要,因为首先你需要自己浏览网页知道你需要的东西在哪里,你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器,或者谷歌浏览器,它们的右键审查元素和查看源代码的功能都非常强大。
下面我们开始正式的爬虫之旅!~
欢迎各位小伙伴在Github提交PR:https://github.com/callmewhy/ZhihuDown
0 0
- [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶
- [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶
- [Java]知乎下巴第2集:使用爬虫来获取知乎的编辑推荐内容
- [Java]知乎下巴第2集:使用爬虫来获取知乎的编辑推荐内容
- [Java]知乎下巴第1集:爬虫世界百度不仅仅可以拿来测网速
- [Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫
- [Java] 知乎下巴第5集:使用HttpClient工具包和宽度爬虫
- [Java]知乎下巴第3集:来人啊快把知乎的答案装到篮子里去
- [Java]知乎下巴第3集:来人啊快把知乎的答案装到篮子里去
- JAVA知乎爬虫
- [Java]知乎下巴第4集:再把抓到篮子里的知乎塞到硬盘里吧
- [Java]知乎下巴第4集:再把抓到篮子里的知乎塞到硬盘里吧
- Java爬虫知乎改进
- Java知乎爬虫之抓取知乎答案
- 知乎爬虫
- 知乎爬虫
- python 爬虫 知乎
- 知乎爬虫
- 86. Partition List
- C#HttpClient或使用CookieContainer模拟登陆后HttpRequest不发送cookie的解决方法及原因
- 图文并茂用地址分析双向链表
- robot framework 自定义关键字详细过程及debug。
- 文件较复杂操作: 打包、解压
- [Java]知乎下巴第0集:让我们一起来做一个知乎爬虫吧哦耶
- Fork/Join框架之双端队列
- c预处理命令
- QSignalMapper 使用方法 参见QSignalMapper中使用文档
- Dubbo-----HelloWorld之Zookeeper注册中心(2)
- Thread代替引用传递,利用ThreadLocal来为每一个线程保留自己的空间
- aidl is missing 错误解决方法
- 多维随机变量与其对应的分布
- [Java]知乎下巴第2集:使用爬虫来获取知乎的编辑推荐内容