CSDN爬虫(三)——网络爬虫模拟登陆两种策略
来源:互联网 发布:windows无法安装usb 编辑:程序博客网 时间:2024/06/03 13:10
CSDN爬虫(三)——网络爬虫模拟登陆两种策略
说明
- 开发环境:jdk1.7+myeclipse10.7+win74bit+mysql5.5+webmagic0.5.2+jsoup1.7.2
- 爬虫框架:webMagic
- 建议:建议首先阅读webMagic的文档,再查看此系列文章,便于理解,快速学习:http://webmagic.io/
- 开发所需jar下载(不包括数据库操作相关jar包):点我下载
- 该系列文章会省略webMagic文档已经讲解过的相关知识。
两种策略概述
- 策略一:模拟浏览器登录,用代码模拟表单填写,然后获取登陆后的信息,用apache的“HttpClients”进行信息保存。特点:操作复杂,需要有足够深的http相关的知识,才能灵活运用,并且许多网站有很多加密规则,需要具体问题具体解决;不过,不需要考虑cookie失效问题。
- 策略二:直接拿去cookie信息,进行设置。特点:操作简单,只要将登陆后的页面的cookie信息拿过来即可;不过,可能会用时间限制,超过一定时间就不能再使用了,需要重新设置。
- 推荐:第二种,对于开发小白,学习成本低。
策略一:模拟浏览器登录
- 注:代码参考网上,具体位置不祥。
代码预览
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
结果预览
- 没有模拟登陆
- 模拟登陆
- 没有模拟登陆
策略二:获取cookie
获取方式如下图
代码预览
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
结果预览
同策略一结果
操作代码
点我下载
阅读全文
0 0
- CSDN爬虫(三)——网络爬虫模拟登陆两种策略
- CSDN爬虫(三)——网络爬虫模拟登陆两种策略
- CSDN爬虫(六)——动态网页爬取的两种策略
- CSDN爬虫(六)——动态网页爬取的两种策略
- Python爬虫——模拟登陆爬取csdn页面
- HtmlUnit 爬虫简单案例——模拟登陆CSDN
- php模拟登陆,网络爬虫
- Python网络爬虫模拟CSDN
- python网络爬虫入门(二)———模拟登陆知乎
- 【网络爬虫】【python】网络爬虫(三):模拟登录——伪装浏览器登录爬取过程
- python爬虫之模拟登陆csdn
- 网络爬虫中的模拟登陆获取数据(实例教学)
- Python3网络爬虫:使用Cookie-模拟登陆
- python selenium网络爬虫 模拟登陆
- 搜索引擎—网络爬虫抓取策略
- webmagic是个神奇的爬虫【三】—— 使用selenium模拟登陆
- python爬虫 模拟登陆
- Python 爬虫模拟登陆
- spring注解
- java CMS垃圾回收日志解释
- Sourcegraph插件安装及介绍
- codefoeces 411 div 2 -3-palindrome
- andorid6.0 mtk6737平台 ctp调试方法
- CSDN爬虫(三)——网络爬虫模拟登陆两种策略
- Java集合:ArrayList的实现原理
- Chrome浏览器添加Proxy Switchy插件
- APUE-输入和输出
- 如何安装把包安装到ios手机上
- 正则表达式应用的举例
- 10/21 ip 网关 以及设置网关
- 限流识别IC|UC2500|UC2501|批量现货|中文设计方案
- 对象行为型模式——迭代器模式(Iterator)