爬虫涉及若干问题
来源:互联网 发布:mac上传图片 编辑:程序博客网 时间:2024/05/23 12:03
爬虫涉及若干问题V1.0
页面数据:
1. 特定数据
2. 结构型数据
3. 不规则数据
4. 待挖掘数据
5. 无价值数据
请求分类:
1. 模式请求
2. 样例请求
3. 指定请求
反爬:
1. User-Agent
2. Referer
3. X-Requested-With
4. 特殊标识
Cookie:
1. 不可考规则
2. 指定Token
请求方式:
1. key-value
2. form
3. json
4. xml
5. dwc(特殊框架)
数据格式:
1. html
2. json
3. xml
4. txt
5. 字节流
6. 加密串
失败分类:
1. 连接超时
2. 403
3. 自然失败
4. 限制失败(短信)
重提策略;
1. 功能重提
2. 事务重提
3. 数据重提
4. 请求重提
麻烦点:
1. 关联请求
顺序规则请求
异常点:
1. BigDecimal(常出问题)
2. Json转换(目标有json和html两状态)
3. 类型装换
加密:
1. Md5
2. Js加密
3. Aes
4.
架构:
1. 敏捷
2. 高效
3. 高可用
4. 韧性
5. 弹性
6. 可扩展性
7. 易构性
共性:
1. 一致性
2. 个性化
阅读全文
0 0
- 爬虫涉及若干问题
- 若干问题
- 网络爬虫项目开发日志(一):关于爬虫项目所涉及的领域知识
- 记录《自己动手写网络爬虫 》书中涉及的内容学习一些算法
- String若干问题
- DataGridView 若干问题
- 数字电路若干问题
- 若干问题解决办法
- 计算机网络若干问题
- TFS 若干问题
- DataGridView 若干问题
- 注册表若干问题
- sizeof若干问题
- redis若干问题
- 矩阵 若干问题
- python若干问题
- RCNN 若干问题
- tankwar涉及
- java中变量的存放位置
- 对于mmap函数错误的理解
- python web py入门-3-URL映射
- Watchdog死锁实例分析
- 应用层数据传递之http协议
- 爬虫涉及若干问题
- Ubuntu 火狐浏览器中,鼠标选择文字被删除的解决办法
- 叽里呱啦。
- Qt学习之路(26): 反走样
- jquery事件
- (Basic algorithm学习笔记)《基础算法一》- 排序
- splay树模板
- 求两个字符串的公共连续子序列
- RxJAVA操作符