爬虫学习的前置

来源:互联网 发布:六安行知教育电话 编辑:程序博客网 时间:2024/05/22 11:47

1、Python基础

2、网页的头部信息

3、网页的状态吗

4、Python的2与3的选择

想写Python爬虫,首先的有一些Python的基础吧!不用太高,懂得一些基础就够了。就算没有Python的基础,也得有一些编程的基础吧。。。

网页的头部信息:首先是要得到网页的头部信息,Python下的取得方法是:

import urllib.requesturl="http://blog.csdn.net/john_bian/article/details/68059250"html = urllib.request.urlopen(url)print(html.info())
下边是对应的输出结果:
Server: openrestyDate: Fri, 13 Oct 2017 05:19:41 GMTContent-Type: text/html; charset=utf-8Content-Length: 49282Connection: closeVary: Accept-EncodingCache-Control: private, max-age=0, must-revalidateETag: "f899b6d967a2c39a643ee490e277088a"Set-Cookie: uuid=0cb0e39d-64d5-4576-873a-c863d394dc62; expires=Sat, 14-Oct-2017 05:19:41 GMT; path=/Set-Cookie: avh=68059250; expires=Fri, 13-Oct-2017 06:19:41 GMT; path=/X-Powered-By: PHP 5.4.28

重要的有三项,首先是:Server:服务器信息,主要是显示网页使用的是什么服务器。

Content-type:网页的文本格式和编码格式,这个的重要性不用说了吧。如果不一致的话就采用.decode(原编码).encode(更改后的编码)。注:网页上的G币312也是Gbk。

last-modified:判断网页的更新时间,对比信息的话就可以抓起到新的信息,如果找不到的话就看Etag,上边也记载这网页的更新信息。

网页的状态码:和上边的程序一样最后是采用的html.getcode()的方法读取。常见的网页状态码是:200,301,302,404,500。200:表示网页可以正常抓取,301表示永久性重定向,302:临时性重定向,404:网页找不到,403:网页禁止访问,或者需要密码什么的,500:服务器忙,服务器无响应。就是服务器炸了。

urlretrieve(),网页的下载方法在urllib库里,;有两个参数,一个是网页的url,另外是个下载路径。

至于是Python2还是Python3 选择哪个,根本不至于纠结,选择哪个都可以,最好的是看着Python2写成Python3 ,虽然刚开始学的有点难,这样下来学到最后Python2和Python3都熟悉了。

原创粉丝点击