基于 webmagic 的知乎爬取[GitHub]
来源:互联网 发布:手机淘宝补差价 编辑:程序博客网 时间:2024/05/22 23:58
ZhiHuCrawler(基于 webmagic
的知乎爬取)
简介
GitHub 地址
出于兴趣想要分析一下知乎
,所以爬取了一些知乎的数据。爬取的数据主要有三种:
- 某种话题(如互联网、软件工程)下的问题
- 知乎大V
(如张佳玮、李开复等)
- 大V
回答
模块
主要分两个模块:
话题问题爬取
(ZhiHuTopics
package)
该模块主要爬取某话题下的
Question
,比如爬取软件工程
下的问题。爬取的结果如下:
url: https://www.zhihu.com/question/66519221标题: 腾讯开发微信花了多少钱?真的技术难度这么大吗?难点在哪里?关注者: 2955浏览人数: 1288594
【注】:这里由于我不需要
问题回答
,故没有爬取用户回答
。其实,在此基础上修改一下很容易得到用户回答
内容。该模块下爬取内容的输出为
txt
文件。该模块的使用案例,请参考
Crawler
类中main()
方法。
大v爬取
(VAnalysis
package)【未添加注释。。。】
该模块爬取的数据可分为两类:
知乎大
v
【案例】:VUserCrawler
类中main()
大
V
回答 【案例】:VAnswerCrawler
类中main()
该模块爬取的结果输出到
MySQL
数据库。其中,使用了Hibernate
方便、优化了输出。
相关
如果需要修改,请先了解
WebMagic
。WebMagic 是一个开源的Java垂直爬虫框架。为防止知乎锁
IP
,爬取速度不是很快。我在爬top100大v的回答
(8w+数据) 时大约使用了 2天 17小时。
关于
IntelliJ IDEA 2017.1Build #IU-171.3780.107, built on March 22, 2017Licensed to kissxJRE: 1.8.0_112-release-736-b13 amd64JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.oWindows 10 10.0
阅读全文
0 0
- 基于 webmagic 的知乎爬取[GitHub]
- 基于WebMagic的CSDN博客爬虫
- 基于WebMagic的java爬虫实战
- 基于WebMagic爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- 基于webmagic的爬虫小应用--爬取知乎用户信息
- 基于WebMagic写的一个csdn博客小爬虫
- 基于WebMagic写的一个入门级CSDN博客爬虫
- 基于WebMagic写的一个csdn博客小爬虫
- Webmagic简单的讲解
- webmagic
- WebMagic
- webmagic
- 基于Webmagic的爬取B站用户数据的爬虫
- 基于webmagic的java网页爬虫,抓取网页指定节点,然后使用dom4j分析xml数据
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- WebMagic写的网络爬虫
- 在mac上安装下pySpark,并且在pyCharm中python调用pyspark
- centos Linux安装eclipse
- JAVA设计模式 Build 模式
- UNIX环境编程学习笔记(19)——进程管理之fork 函数的深入学习
- 每天一道LeetCode-----给定序列中2/3/4个元素的和为target的所有集合,或3个元素的和最接近target的集合
- 基于 webmagic 的知乎爬取[GitHub]
- *TEST 5 for NOIP 。。。
- WIFI基本知识整理
- php 编译
- 网页特效
- Python 多线程的三种创建方式
- DSPF28335学习笔记
- 在IDEA中使用 Spring Initializr 新建 spring boots 项目
- 按自然班优先分组算法