网络爬虫概述
来源:互联网 发布:qq飞车数据 编辑:程序博客网 时间:2024/06/03 13:46
1、概述
网络爬虫事一种按照一定的规则,自动抓取万维网信息的程序或者脚本。
2、分类
网络爬虫按照系统结构和实现技术,大致可以分为以下几种:
1)通用型爬虫
2)聚焦型爬虫
3)增量式爬虫
4)深层网络爬虫
3、基本结构
1)URL管理器
2)HTML下载器
3)HTML解析器
4)数据存储器
5)爬虫调度器
4、HTTP请求Python实现
1) urllib2/urllib实现
GET:
import urllib2
response=urllib2.urlopen('http://www.zhihu.com')
html=response.read()
print(html)
POST:
import urllib
import urllib2
url='http://www.zhihu.com'
postdata={'username' : 'u',
'password' : 'p'}
data=urllib.urlencode(postdata)
req=urllib2.Request(url,data)
response=urllib2.urlopen(req)
html=response.read()
2) 第三方库requests实现
GET:
import requests
r=requests.get('http://www.zhihu.com')
print(r.content)
POST:
import requests
r=requests.get('http://zhihu.com')
print(r.content)
阅读全文
0 0
- 网络爬虫概述
- 网络爬虫概述
- 网络爬虫初识:网络爬虫概述
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- 网络爬虫学习笔记(一) 网络爬虫概述
- 网络爬虫学习笔记之概述
- java网络爬虫学习记录(一)概述
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 网络爬虫
- 同步互斥机制2-进程通讯机制
- 网络流(三) 最小割 平面图转对偶图
- Java MongoDB 认证
- memset memcpy用法
- c++编写的图像读取、保存、相减、放大(最近邻插值。双线性插值)、均值滤波、中值滤波
- 网络爬虫概述
- Python学习---第十七天
- JVM 参数配置及详解 -Xms -Xmx -Xmn -Xss 调优总结
- Linux--问题积累
- 六兆年と一夜物語 jzoj3501 最短路
- 台湾大学深度学习课程 学习笔记 lecture1-1 Introduction
- 阿里云服务器ECS Ubuntu16.04-64-bit学习之一:配置桌面
- Java 破解谷歌翻译 免费 api 调用
- Java MongoDB 插入