Java 爬虫实战100例(草稿)
来源:互联网 发布:mac 磁盘工具找回照片 编辑:程序博客网 时间:2024/05/30 20:07
Java 爬虫从简单到复杂分以下几个层次
1 静态网页
2 分页网页
3 AJAX动态加载网页(搜索,点击加载更多,下拉页面到底部自动加载)
4 登录型网站(需要模拟登陆,https证书,ssl)
5 白底黑字pdf,图片文字识别
6 简单验证码
7 爬虫的克星——短信验证码
3 AJAX动态加载网页
POST请求结构:
其中,Header的Cookie很关键。
Cookie也是一系列以英文“;”分割的 Key-Value 参数
其中,可以不用管hm_lvtxxxxxxxxxxxxxx, 和hm_lvptxxxxxxxxxxxxxxxxx。他们是百度联盟统计用的,和网站无关。
与POST结构对应,httpClient 4.5.2 提供了 Header接口 和 Entity接口
主要用到的类是
StringEntity(abc=123&xyz=456)或
UrlEncodedFormEntity({abc=123, xyz=456})
7 爬虫的克星——短信验证码
思路一:
在没有手机的情况下正常接收短信的方法是有的,但有一个前提,你得使用某些手机自动云同步短信的功能。例如魅族的Flyme功能(小编还以为苹果iCloud能云端查看短信,结果发现是不可能的)。
只需登录Flyme官网,就能随时查收自己的短信,哪怕短信是刚发布出去的话,也能很快收到。当然,Flyme能接收你短信的前提是你的手机是有电的,并且是正常连接网络和打开了相关的短信同步功能。
思路二:
360手机助手链接电脑,从助手那里获得短信。
思路三:(脑洞)
手机一直亮着屏幕,充着电保证不会没电。摄像头拍手机屏幕,一旦收到验证码就图像识别,白底黑字的印刷体数字识别率据说是100%
- Java 爬虫实战100例(草稿)
- java爬虫实战
- java爬虫入门实战
- 实战Java爬虫课程
- 网络爬虫草稿
- (转) Java多层翻页网络爬虫实战(以搜房网为例)
- Java多层翻页网络爬虫实战(以搜房网为例)
- java爬虫实战简单用Jsoup框架进行网页爬虫(如抓取网页图片)
- java 苦与乐(草稿)
- 企业级Java开发学习路线(草稿)
- Java线程安全问答(草稿)
- Python爬虫实战(二)
- Python爬虫实战(一)
- python3爬虫实战(3)
- python爬虫实战(四)
- python爬虫实战(一)
- PostgreSQL高级功能实战(草稿)
- 爬虫实战:一个简易 Java 爬虫程序的实现
- SDUT 2804 求二叉树的深度
- dos批处理文件的编写
- Hdu oj 1556 Color the ball(树状数组区间更新转单点更新)
- 如何学好web安全
- vim两个文件之间内容复制粘贴
- Java 爬虫实战100例(草稿)
- AppWidget实现自定义view
- OpenSuse安装MariaDB
- 几种计算机硬件接口
- monkey 命令
- Hibernate使用二级缓存时,createSQLQuery需要注意的问题
- Insert Delete GetRandom O(1) - Duplicates allowed
- UPDATE语句
- 利用jquery控制全选全不选按钮