基于 webmagic 的知乎爬取[GitHub]

来源:互联网 发布:手机淘宝补差价 编辑:程序博客网 时间:2024/05/22 23:58

ZhiHuCrawler(基于 webmagic 的知乎爬取)

简介

GitHub 地址
出于兴趣想要分析一下知乎,所以爬取了一些知乎的数据。爬取的数据主要有三种:
- 某种话题(如互联网、软件工程)下的问题
- 知乎大V(如张佳玮、李开复等)
- V回答

模块

主要分两个模块:

  1. 话题问题爬取ZhiHuTopics package)

该模块主要爬取某话题下的 Question ,比如爬取 软件工程 下的问题。爬取的结果如下:

url:    https://www.zhihu.com/question/66519221标题: 腾讯开发微信花了多少钱?真的技术难度这么大吗?难点在哪里?关注者:    2955浏览人数:   1288594

】:这里由于我不需要 问题回答 ,故没有爬取 用户回答 。其实,在此基础上修改一下很容易得到 用户回答 内容。

该模块下爬取内容的输出为 txt 文件。

该模块的使用案例,请参考 Crawler 类中 main() 方法。

  1. 大v爬取 (VAnalysis package)【未添加注释。。。】

该模块爬取的数据可分为两类:

知乎大v 【案例】: VUserCrawler 类中 main()

users

V回答 【案例】: VAnswerCrawler 类中 main()

answers

该模块爬取的结果输出到 MySQL 数据库。其中,使用了 Hibernate 方便、优化了输出。

相关

  • 如果需要修改,请先了解 WebMagicWebMagic 是一个开源的Java垂直爬虫框架。

  • 为防止知乎锁 IP ,爬取速度不是很快。我在爬 top100大v的回答(8w+数据) 时大约使用了 2天 17小时

关于

IntelliJ IDEA 2017.1Build #IU-171.3780.107, built on March 22, 2017Licensed to kissxJRE: 1.8.0_112-release-736-b13 amd64JVM: OpenJDK 64-Bit Server VM by JetBrains s.r.oWindows 10 10.0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 哆点错误代码1怎么办 忘记密码怎么办简单一点 智校园忘记密码怎么办 wps图片显示空白怎么办 dr.com闪退怎么办 联想笔记本连不上无线网络怎么办 长时间不用电池休眠怎么办? 校园电信卡欠费怎么办 校园联通卡欠费怎么办 校园网等不上怎么办 app显示尚未授权怎么办 手机屏有气泡怎么办 平板老是闪退怎么办 挖机环保不合格怎么办 摩托车高压火弱怎么办 助力转向机漏油怎么办 淘宝运费险不够怎么办 iphonex锁屏延迟怎么办 淘宝不能评价了怎么办 微商卖香烟不发货怎么办? 三诺血糖仪不准怎么办 如果点球平了怎么办 a2期胃溃疡怎么办水肿 末次月经记不清怎么办 身体弱容易生病怎么办 用复方沙棘出血怎么办 服了苯扎氯铵溶液怎么办 药监局查到过期药品怎么办 血管粥样硬化怎么办 化疗后血管硬化怎么办 牛油果没熟切开了怎么办 切开的牛油果没熟怎么办 牛油果打开不熟怎么办 牛油果切开不熟怎么办 牛油果没有熟怎么办 舌头上有白点怎么办 仇人追我怎么办gl 瑞和宝被锁了怎么办 微哨无法下线怎么办 Ppt版本不一样打不开怎么办 ps文件太大打不开怎么办