网络爬虫基础知识碎碎念

来源:互联网 发布:建筑安装预算软件 编辑:程序博客网 时间:2024/06/10 00:06

看了一些论文和书,有些感触,及时记录。

1. URI(Universal Resource Identifier)所有网络资源通用资源标志符。URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身
的名称,由路径表示。

2. URL(Uniform Resource Locator) 是 URI 的一个子集, 叫作“统一资源定位符”。 URL 可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL 的格式由三部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。(有时可以省略)

比如:http://write.blog.csdn.net/postedit

第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。

3. 第一部分的传输协有http超文本协议和文件传输FTP。(这我还记得。。)

4. Http状态码:

分类:
已定义范围分类1XX100-101信息提示2XX200-206成功3XX300-305重定向4XX400-415客户端错误5XX500-505服务器错误









5. 宽度(广度)优先历遍,请看《算法导论》那本书。

6. 在宽度优先历遍网页时,我们还能在同一层的网页设置偏好,让那些重要的网页优先历遍,这叫做Page Selection。网页的重要性公式是:

I(P)=X*IB(P)+Y*IL(P)

其中,X 和 Y 两个参数,用来调整 IB(P)和 IL(P)所占比例的大小,IB是反向链接(backlinks,即指向当前 URL 的链接)的数量和质量。IL是链接的重要度, 是一个关于 URL 字符串的函数, 仅仅考察字符串本身, 比如认为 “.com”和“home”的 URL 重要度比“.cc”和“map”高,我们定义为 IL(P)。

7. 线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其 他线程共享存储空间。

0 0
原创粉丝点击