爬虫学习的前置
来源:互联网 发布:六安行知教育电话 编辑:程序博客网 时间:2024/05/22 11:47
1、Python基础
2、网页的头部信息
3、网页的状态吗
4、Python的2与3的选择
想写Python爬虫,首先的有一些Python的基础吧!不用太高,懂得一些基础就够了。就算没有Python的基础,也得有一些编程的基础吧。。。
网页的头部信息:首先是要得到网页的头部信息,Python下的取得方法是:
import urllib.requesturl="http://blog.csdn.net/john_bian/article/details/68059250"html = urllib.request.urlopen(url)print(html.info())
下边是对应的输出结果:
Server: openrestyDate: Fri, 13 Oct 2017 05:19:41 GMTContent-Type: text/html; charset=utf-8Content-Length: 49282Connection: closeVary: Accept-EncodingCache-Control: private, max-age=0, must-revalidateETag: "f899b6d967a2c39a643ee490e277088a"Set-Cookie: uuid=0cb0e39d-64d5-4576-873a-c863d394dc62; expires=Sat, 14-Oct-2017 05:19:41 GMT; path=/Set-Cookie: avh=68059250; expires=Fri, 13-Oct-2017 06:19:41 GMT; path=/X-Powered-By: PHP 5.4.28
重要的有三项,首先是:Server:服务器信息,主要是显示网页使用的是什么服务器。
Content-type:网页的文本格式和编码格式,这个的重要性不用说了吧。如果不一致的话就采用.decode(原编码).encode(更改后的编码)。注:网页上的G币312也是Gbk。
last-modified:判断网页的更新时间,对比信息的话就可以抓起到新的信息,如果找不到的话就看Etag,上边也记载这网页的更新信息。
网页的状态码:和上边的程序一样最后是采用的html.getcode()的方法读取。常见的网页状态码是:200,301,302,404,500。200:表示网页可以正常抓取,301表示永久性重定向,302:临时性重定向,404:网页找不到,403:网页禁止访问,或者需要密码什么的,500:服务器忙,服务器无响应。就是服务器炸了。
urlretrieve(),网页的下载方法在urllib库里,;有两个参数,一个是网页的url,另外是个下载路径。
至于是Python2还是Python3 选择哪个,根本不至于纠结,选择哪个都可以,最好的是看着Python2写成Python3 ,虽然刚开始学的有点难,这样下来学到最后Python2和Python3都熟悉了。
阅读全文
0 0
- 爬虫学习的前置
- 爬虫的学习分析
- 学习爬虫的记录
- 爬虫框架的学习
- 传智播客servlet学习,Servlet的概念和前置知识
- QT学习之路-C++类的前置声明
- 爬虫学习01 什么是爬虫 爬虫的分类
- 金融系统的前置平台
- 前置声明的使用
- C++的前置声明
- 窗体前置的应用
- C++的前置声明
- 前置声明的使用
- 前置增强的实现
- 前置声明的危险
- C++的前置声明
- c++的前置声明
- typedef 的前置声明
- 基于ionic2 的移动app开发过程《1》
- Shell脚本模拟用户行为刷App积分,学习娱乐之用,再加图像数字识别验证码登录
- jmeter监控内存,CPU等方法
- ubuntu16.04出現:E: Problem executing scripts APT::Update::Post-Invoke-Success 'if /usr/bin/test -w /va
- 安装opencv-python时候报错
- 爬虫学习的前置
- ffmpeg视频生成gif
- iOS加固保护原理
- 中国国家机构
- 从零一起学react(5)---组件的生命周期
- Android 系统编译过程中出现scripts/sign-file.c:23:30: fatal error: openssl/opensslv.h问题解决
- CDH集群中关于HBase的优化
- JAVA idea 导jar包
- 【面试】排序算法