Java 爬虫实战100例(草稿)

来源:互联网 发布:mac 磁盘工具找回照片 编辑:程序博客网 时间:2024/05/30 20:07

Java 爬虫从简单到复杂分以下几个层次
1 静态网页
2 分页网页
3 AJAX动态加载网页(搜索,点击加载更多,下拉页面到底部自动加载)
4 登录型网站(需要模拟登陆,https证书,ssl)
5 白底黑字pdf,图片文字识别
6 简单验证码
7 爬虫的克星——短信验证码

3 AJAX动态加载网页

POST请求结构:

名字 作用 Url 请求的网址 Header 一系列用 Key-Value 表示的参数 Entity (Body) 请求参数。部分情况下,把参数写在Entity里不等价于请求参数直接写在Url最后!

其中,Header的Cookie很关键。
Cookie也是一系列以英文“;”分割的 Key-Value 参数
其中,可以不用管hm_lvtxxxxxxxxxxxxxx, 和hm_lvptxxxxxxxxxxxxxxxxx。他们是百度联盟统计用的,和网站无关。

与POST结构对应,httpClient 4.5.2 提供了 Header接口 和 Entity接口
主要用到的类是
StringEntity(abc=123&xyz=456)或
UrlEncodedFormEntity({abc=123, xyz=456})

7 爬虫的克星——短信验证码

思路一:
在没有手机的情况下正常接收短信的方法是有的,但有一个前提,你得使用某些手机自动云同步短信的功能。例如魅族的Flyme功能(小编还以为苹果iCloud能云端查看短信,结果发现是不可能的)。

只需登录Flyme官网,就能随时查收自己的短信,哪怕短信是刚发布出去的话,也能很快收到。当然,Flyme能接收你短信的前提是你的手机是有电的,并且是正常连接网络和打开了相关的短信同步功能。

思路二:
360手机助手链接电脑,从助手那里获得短信。

思路三:(脑洞)
手机一直亮着屏幕,充着电保证不会没电。摄像头拍手机屏幕,一旦收到验证码就图像识别,白底黑字的印刷体数字识别率据说是100%

0 0
原创粉丝点击