Python爬虫学习笔记(一)

来源:互联网 发布:混沌摆淘宝 编辑:程序博客网 时间:2024/04/28 05:22

python爬虫学习

因参加2017年软件杯比赛,选择分布式爬虫赛题,为此写下学习笔记。


一、网络爬虫

        (1)是什么:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。
      (2)为什么:为了解决搜索引擎的局限性。
      (3)怎么做:通过学习去解决怎么做,正是写下此笔记的缘由。

二、开发环境

         操作系统linux(ubuntu)       
       开发语言:python
       编辑器:vim
       IDLE(集成开发环境):pycharm(方便快速编写代码)

三、知识体系

      (1)python:本人使用的为python2.7进行开发,因2.7和3.0版本的pythhon语法变化很大,只做python2.7作参考学习。
     (2)网页基本知识:HTML语言知识,网站的发包和收包,JS动态网页知识   
     (3)分析语言:XPATH和正则表达式(RE)
     (4)python爬虫基本思想和原理
     (5) Scrapy(爬虫框架)
     (6)BloomFilters:去重工具
     (7)Redis:存储的数据库
     (8)分布式爬虫原理
     (9)RQ(Redis Queue)+scrapy

0 0