网络爬虫基础知识碎碎念

来源：互联网发布：建筑安装预算软件编辑：程序博客网时间：2024/06/10 00:06

看了一些论文和书，有些感触，及时记录。

1. URI（Universal Resource Identifier）所有网络资源通用资源标志符。URI 通常由三部分组成：①访问资源的命名机制；②存放资源的主机名；③资源自身
的名称，由路径表示。

2. URL（Uniform Resource Locator）是 URI 的一个子集，叫作“统一资源定位符”。 URL 可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL 的格式由三部分组成：
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址，如目录和文件名等。（有时可以省略）

比如：http://write.blog.csdn.net/postedit

第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。

3. 第一部分的传输协有http超文本协议和文件传输FTP。（这我还记得。。）

4. Http状态码：

分类：
已定义范围分类1XX100-101信息提示2XX200-206成功3XX300-305重定向4XX400-415客户端错误5XX500-505服务器错误

5. 宽度（广度）优先历遍，请看《算法导论》那本书。

6. 在宽度优先历遍网页时，我们还能在同一层的网页设置偏好，让那些重要的网页优先历遍，这叫做Page Selection。网页的重要性公式是：

I(P)=X*IB(P)+Y*IL(P)

其中，X 和 Y 两个参数，用来调整 IB(P)和 IL(P)所占比例的大小，IB是反向链接(backlinks，即指向当前 URL 的链接)的数量和质量。IL是链接的重要度，是一个关于 URL 字符串的函数，仅仅考察字符串本身，比如认为 “.com”和“home”的 URL 重要度比“.cc”和“map”高，我们定义为 IL(P)。

7. 线程又称为轻量级进程，它和进程一样拥有独立的执行控制，由操作系统负责调度，区别在于线程没有独立的存储空间，而是和所属进程中的其他线程共享存储空间。

0 0