python spider学习笔记（一）

来源：互联网发布：仓储软件有哪里编辑：程序博客网时间：2024/05/12 18:28

以前早就听说过网络爬虫，如今我也开始接触这神奇的东西了，可是乍一看，都是一些高大上的名词，天书啊，什么也看不懂，不知道初学者是否有和我一样的感受？
万事开头难，但是总有办法解决的。首先，我们得学一些基础知识，如何一步步深入。
一、网络爬虫的定义
网络爬虫，即Web Spider，是一个很形象的名字。网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。
网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，
然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。这样看来，网络爬虫就是一个爬行程序，一个抓取网页的程序。
网络爬虫的基本操作是抓取网页。
抓取网页的过程其实和读者平时使用浏览器浏览网页的道理是一样的。
比如说你在浏览器的地址栏中输入 www.google.com 这个地址。
打开网页的过程其实就是浏览器作为一个浏览的“客户端”，向服务器端发送了一次请求，把服务器端的文件“抓”到本地，再进行解释、展现。
HTML是一种标记语言，用标签标记内容并加以解析和区分。

浏览器的功能是将获取到的HTML代码进行解析，然后将原始的代码转变成我们直接看到的网站页面

那么如何才能随心所欲地获得自己想要的页面？我们得先从URL开始

那什么是URL呢？
理解URL之前我们先得理解URI

二、什么是URI？

Web上每种可用的资源，如 HTML文档、图像、视频片段、程序等都由一个通用资源标志符(Universal Resource Identifier， URI)进行定位。
URI通常由三部分组成：
①访问资源的命名机制；
②存放资源的主机名；
③资源自身的名称，由路径表示。
如下面的URI：
http://www.baidu.com.cn/myhtml/html40/
我们可以这样解释它：
①这是一个可以通过HTTP协议访问的资源，
②位于主机 www.webmonkey.com.cn上，

③通过路径“/html/html40”访问。

三、什么是URL

URL（Uniform Resoure Locator：统一资源定位器）是WWW页的地址，它从左到右由下述部分组成：
Internet资源类型（scheme）：指出WWW客户程序用来操作的工具。如“http：//”表示WWW服务器，“ftp：//”表示FTP服务器，“gopher：//”表示Gopher服务器，而“new：”表示Newgroup新闻组。
服务器地址（host）：指出WWW页所在的服务器域名。
端口（port）：有时（并非总是这样），对某些资源的访问来说，需给出相应的服务器提供端口号。
路径（path）：指明服务器上某资源的位置（其格式与DOS系统中的格式一样，通常有目录/子目录/文件名这样结构组成）。与端口一样，路径并非总是需要的。
URL地址格式排列为：scheme：//host：port/path

URL的格式由三部分组成：
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址，如目录和文件名等。
第一部分和第二部分用“://”符号隔开，
第二部分和第三部分用“/”符号隔开。
第一部分和第二部分是不可缺少的，第三部分有时可以省略。

四、URL和URI简单比较
URI属于URL更低层次的抽象，一种字符串文本标准。
换句话说，URI属于父类，而URL属于URI的子类。URL是URI的一个子集。
URI的定义是：统一资源标识符；
URL的定义是：统一资源定位符。
二者的区别在于，URI表示请求服务器的路径，定义这么一个资源。

而URL同时说明要如何访问这个资源（http://）

爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件内容，然后对它进行进一步的处理。

0 0