爬虫涉及若干问题

来源:互联网 发布:mac上传图片 编辑:程序博客网 时间:2024/05/23 12:03

爬虫涉及若干问题V1.0

 

页面数据:

1.     特定数据

2.     结构型数据

3.     不规则数据

4.     待挖掘数据

5.     无价值数据

请求分类:

1.     模式请求

2.     样例请求

3.     指定请求

反爬:

1.     User-Agent

2.     Referer

3.     X-Requested-With

4.     特殊标识

Cookie:

1.     不可考规则

2.     指定Token

请求方式:

1.     key-value

2.     form

3.     json

4.     xml

5.     dwc(特殊框架)

数据格式:

1.     html

2.     json

3.     xml

4.     txt

5.     字节流

6.     加密串

失败分类:

1.     连接超时

2.     403

3.     自然失败

4.     限制失败(短信)

重提策略;

1.     功能重提

2.     事务重提

3.     数据重提

4.     请求重提

麻烦点:

1.     关联请求

顺序规则请求

异常点:

1.     BigDecimal(常出问题)

2.     Json转换(目标有json和html两状态)

3.     类型装换

加密:

1.     Md5

2.     Js加密

3.     Aes

4.      

架构:

1.     敏捷

2.     高效

3.     高可用

4.     韧性

5.     弹性

6.     可扩展性

7.     易构性

共性:

1.     一致性

2.     个性化

 

 

 

原创粉丝点击