爬虫之个人理解的基本处理思路

来源:互联网 发布:ubuntu 32位iso下载 编辑:程序博客网 时间:2024/06/05 19:21

爬虫之个人理解的基本处理思路

经过一段时间的对web数据的爬取,总结如下:


基本条件

  • 了解html
  • 熟悉web请求以及响应的基本信息
  • 熟悉一种或者几种常见的开发语言,如java、.net、python 等

工具

  • 开发IDE或者其他方式
  • 网页抓取工具(本人用的是Fiddler)

基本处理思路

  1. 解析网页基本结构 ,观察网页的展示方式(内嵌网页还是单个网页跳转)
  2. 访问目标网页,并使用工具Fiddler 分析是否为静态网页或者为动态网页
  3. 根据分析的结果,统计形成规律性的访问
  4. 根据个人需要,决定抓取网页内容

最后,本人语言功底有限,可能有些地方描述不清楚或者有些地方存在思路差错或者您有更好的思路方式,随时沟通。

原创粉丝点击