网络爬虫实现的原理

来源:互联网 发布:手机qq辅助软件 编辑:程序博客网 时间:2024/06/05 03:41

    一、爬行策略

        深度优先爬行策略、广度优先爬行策略、大站优先策略、反链策略、OPIC策略、Pagerank策略。


       二、网页分析算法


      (1)基于用户行为的网页分析算法: 根据用户对网页的访问行为及其评价

     

     (2)基于网络拓扑的网页分析算法: 结构关系

         网页粒度的分析算法

         网页块粒度的分析算法

         基于网站粒度的分析算法

 

     (3)基于网页内容的网页分析算法:网页的数据、文本等网页内容的特征


    三、网络爬虫实现技术