Python爬虫学习笔记（一）

来源：互联网发布：混沌摆淘宝编辑：程序博客网时间：2024/04/28 05:22

python爬虫学习

因参加2017年软件杯比赛，选择分布式爬虫赛题，为此写下学习笔记。

（1）是什么：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。

（2）为什么：为了解决搜索引擎的局限性。

（3）怎么做：通过学习去解决怎么做，正是写下此笔记的缘由。

操作系统：linux（ubuntu）

开发语言：python

编辑器：vim

IDLE(集成开发环境):pycharm（方便快速编写代码）

（1）python：本人使用的为python2.7进行开发，因2.7和3.0版本的pythhon语法变化很大，只做python2.7作参考学习。

（2）网页基本知识:HTML语言知识，网站的发包和收包，JS动态网页知识

（3）分析语言：XPATH和正则表达式（RE）

（4）python爬虫基本思想和原理

（5） Scrapy(爬虫框架)

（6）BloomFilters：去重工具

（7）Redis：存储的数据库

（8）分布式爬虫原理

（9）RQ（Redis Queue）+scrapy

0 0