程序博客网 > 杭州正规淘宝运营公司

模拟登陆爬取知乎

来源：互联网发布：杭州正规淘宝运营公司编辑：程序博客网时间：2024/06/05 07:33

2017.4.26更新

实现功能为爬取指定关键字下所有问题及每个问题中的所有回答
回答中文字和图片是分离的，因为从服务器返回的JSON数据中内容部分比较混乱，暂时只是粗暴的做了分离操作
后续将加入多线程下载、爬取用户、爬取话题的功能

项目地址
GitHub : ZhihuCrawler

使用说明

本程序实现爬取指定关键词下所有问题及所有回答，保存格式为csv格式
采用模拟登陆，首次使用时需要输入账号和密码
本程序基于Python3开发，使用包括requests、http、bs4、urllib和json等第三方库
运行Main.py文件，无需做其他修改
附带了Json.json文件，这是某个问题下从服务器返回的数据，可以根据需求手动修改GetContent.py文件中parserQuestion()方法中保存类别的信息

0 0

杭州正规淘宝运营公司

杭州正规淘宝运营公司

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子壮汉壮汉勾栏院壮汉父亲壮汉马眼山野壮汉肉壮汉将军生娃记三黑人壮汉轮亚裔女在线播放壮汉玩小男孩我和壮汉司机壮汉自愿被小孩玩中年壮汉取精壮汉深深地填满小女孩挠肌肉壮汉脚心壮汉中风求救消防壮汉将军生娃记by慎言篮球壮汉被小孩玩蛋一门壮汉皆生子txt书包壮汉宠妻忙萌宝一箩筐攻是农村壮汉黑壮肌肉民工壮汉三个女特工被四个壮汉龙血武魂愤怒的壮汉 14岁女中学生与壮汉父亲商女在农家拐个壮汉来种田壮游奇迹世界吧壮游奇迹mu双开壮游奇迹mu任务大全壮熊壮熊图片壮熊资源老壮熊中国壮熊小壮熊中年壮熊的博客壮腰丸撞腰肾兰花肾兰花图片黄角兰花的药用功效肾兰花的功效与作用生根壮苗剂