Python爬虫学习笔记(一)
来源:互联网 发布:混沌摆淘宝 编辑:程序博客网 时间:2024/04/28 05:22
python爬虫学习
因参加2017年软件杯比赛,选择分布式爬虫赛题,为此写下学习笔记。
一、网络爬虫
(1)是什么:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。
(2)为什么:为了解决搜索引擎的局限性。
(3)怎么做:通过学习去解决怎么做,正是写下此笔记的缘由。
二、开发环境
操作系统:linux(ubuntu)
开发语言:python
编辑器:vim
IDLE(集成开发环境):pycharm(方便快速编写代码)
三、知识体系
(1)python:本人使用的为python2.7进行开发,因2.7和3.0版本的pythhon语法变化很大,只做python2.7作参考学习。
(2)网页基本知识:HTML语言知识,网站的发包和收包,JS动态网页知识
(3)分析语言:XPATH和正则表达式(RE)
(4)python爬虫基本思想和原理
(5) Scrapy(爬虫框架)
(6)BloomFilters:去重工具
(7)Redis:存储的数据库
(8)分布式爬虫原理
(9)RQ(Redis Queue)+scrapy
0 0
- python爬虫学习笔记(一)
- Python爬虫学习笔记(一)
- Python网络爬虫学习笔记(一)
- python初学者学习笔记(一)简单的爬虫
- Python学习笔记之爬虫实践(一)
- 学习笔记—Python网络爬虫(一)
- Python 爬虫学习笔记一: requests 模块
- python爬虫学习(一)
- python爬虫学习(一)
- Python 爬虫学习(一)
- Python爬虫学习(一)
- Python爬虫笔记一
- python 爬虫学习一
- Python爬虫学习笔记
- python爬虫学习笔记
- python爬虫学习笔记
- python爬虫学习笔记
- Python 爬虫学习笔记
- OpenGL 新手入门
- 机器学习(6):线性回归
- 机器学习的当下与未来
- 《Web接口开发与自动化测试(基于Python语言)》读书笔记(一)
- 动态规划练习一—3采药
- Python爬虫学习笔记(一)
- linux进程介绍
- 用Android studio 2.3调度程序时提示“Installation failed with message Failed to establish session”错误,需要在在开发者选项
- Navigation Nightmare POJ
- Qt单步调试caffe
- 【MySQL基础】多表操作
- 【NOI2009】bzoj1563 诗人小G
- Windows下配置gVim
- nyoj-水池数目