爬虫之个人理解的基本处理思路
来源:互联网 发布:ubuntu 32位iso下载 编辑:程序博客网 时间:2024/06/05 19:21
爬虫之个人理解的基本处理思路
经过一段时间的对web数据的爬取,总结如下:
基本条件
- 了解html
- 熟悉web请求以及响应的基本信息
- 熟悉一种或者几种常见的开发语言,如java、.net、python 等
工具
- 开发IDE或者其他方式
- 网页抓取工具(本人用的是Fiddler)
基本处理思路
- 解析网页基本结构 ,观察网页的展示方式(内嵌网页还是单个网页跳转)
- 访问目标网页,并使用工具Fiddler 分析是否为静态网页或者为动态网页
- 根据分析的结果,统计形成规律性的访问
- 根据个人需要,决定抓取网页内容
最后,本人语言功底有限,可能有些地方描述不清楚或者有些地方存在思路差错或者您有更好的思路方式,随时沟通。
阅读全文
0 0
- 爬虫之个人理解的基本处理思路
- 个人理解,前端默默自学的感受及一些基本学习思路
- Java开发之Maven的基本配置及个人理解
- Log4j的基本配置和个人理解
- maven 的基本配置及个人理解
- maven 的基本配置及个人理解
- maven 的基本配置及个人理解
- maven 的基本配置及个人理解
- 个人对PIN码的基本理解
- java的个人思路
- java的个人思路!
- 网络爬虫的实现思路
- 个人之于动态规划的理解
- Java个人理解之时间的使用
- c#之面向对象的个人理解
- streamstring的基本使用方法和对它的个人理解
- 数字图像处理基本步骤的简单理解
- BI基本架构和ETL的个人理解
- 访问修饰符
- Divisible [数学]
- Single Number leetcode java
- Sequence I
- 使用turtle库画蛇
- 爬虫之个人理解的基本处理思路
- leetcode657: Judge Route Circle
- 搜索入门--hd 1241 搜索模板
- 致即将毕业的你之每日一编-001
- Spring IoC底层原理
- Linux学习笔记--Python操作mysql数据库(封装基本的增删改查)
- 总结springmvc访问静态资源的三种方式
- 常用的数据字典
- 二分图