爬虫学习的前置

来源：互联网发布：六安行知教育电话编辑：程序博客网时间：2024/05/22 11:47

1、Python基础

2、网页的头部信息

3、网页的状态吗

4、Python的2与3的选择

想写Python爬虫，首先的有一些Python的基础吧！不用太高，懂得一些基础就够了。就算没有Python的基础，也得有一些编程的基础吧。。。

网页的头部信息：首先是要得到网页的头部信息，Python下的取得方法是：

import urllib.requesturl="http://blog.csdn.net/john_bian/article/details/68059250"html = urllib.request.urlopen(url)print(html.info())

下边是对应的输出结果：

Server: openrestyDate: Fri, 13 Oct 2017 05:19:41 GMTContent-Type: text/html; charset=utf-8Content-Length: 49282Connection: closeVary: Accept-EncodingCache-Control: private, max-age=0, must-revalidateETag: "f899b6d967a2c39a643ee490e277088a"Set-Cookie: uuid=0cb0e39d-64d5-4576-873a-c863d394dc62; expires=Sat, 14-Oct-2017 05:19:41 GMT; path=/Set-Cookie: avh=68059250; expires=Fri, 13-Oct-2017 06:19:41 GMT; path=/X-Powered-By: PHP 5.4.28

重要的有三项，首先是：Server：服务器信息，主要是显示网页使用的是什么服务器。

Content-type：网页的文本格式和编码格式，这个的重要性不用说了吧。如果不一致的话就采用.decode(原编码).encode(更改后的编码)。注：网页上的G币312也是Gbk。

last-modified：判断网页的更新时间，对比信息的话就可以抓起到新的信息，如果找不到的话就看Etag，上边也记载这网页的更新信息。

网页的状态码：和上边的程序一样最后是采用的html.getcode()的方法读取。常见的网页状态码是：200,301,302,404,500。200：表示网页可以正常抓取，301表示永久性重定向，302：临时性重定向，404：网页找不到，403：网页禁止访问，或者需要密码什么的，500：服务器忙，服务器无响应。就是服务器炸了。

urlretrieve()，网页的下载方法在urllib库里，；有两个参数，一个是网页的url，另外是个下载路径。

至于是Python2还是Python3 选择哪个，根本不至于纠结，选择哪个都可以，最好的是看着Python2写成Python3 ，虽然刚开始学的有点难，这样下来学到最后Python2和Python3都熟悉了。

阅读全文

0 0