网络爬虫基础知识碎碎念
来源:互联网 发布:建筑安装预算软件 编辑:程序博客网 时间:2024/06/10 00:06
看了一些论文和书,有些感触,及时记录。
1. URI(Universal Resource Identifier)所有网络资源通用资源标志符。URI 通常由三部分组成:①访问资源的命名机制;②存放资源的主机名;③资源自身
的名称,由路径表示。
2. URL(Uniform Resource Locator) 是 URI 的一个子集, 叫作“统一资源定位符”。 URL 可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL 的格式由三部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机 IP 地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。(有时可以省略)
比如:http://write.blog.csdn.net/postedit
第一部分和第二部分用“://”符号隔开,第二部分和第三部分用“/”符号隔开。
3. 第一部分的传输协有http超文本协议和文件传输FTP。(这我还记得。。)
4. Http状态码:
分类:
已定义范围分类
5. 宽度(广度)优先历遍,请看《算法导论》那本书。
6. 在宽度优先历遍网页时,我们还能在同一层的网页设置偏好,让那些重要的网页优先历遍,这叫做Page Selection。网页的重要性公式是:
I(P)=X*IB(P)+Y*IL(P)
其中,X 和 Y 两个参数,用来调整 IB(P)和 IL(P)所占比例的大小,IB是反向链接(backlinks,即指向当前 URL 的链接)的数量和质量。IL是链接的重要度, 是一个关于 URL 字符串的函数, 仅仅考察字符串本身, 比如认为 “.com”和“home”的 URL 重要度比“.cc”和“map”高,我们定义为 IL(P)。
7. 线程又称为轻量级进程,它和进程一样拥有独立的执行控制,由操作系统负责调度,区别在于线程没有独立的存储空间,而是和所属进程中的其 他线程共享存储空间。
- 网络爬虫基础知识碎碎念
- ①网络爬虫基础知识
- 【搜索引擎基础知识2】网络爬虫
- 【搜索引擎基础知识2】网络爬虫
- Python网络爬虫基础知识学习
- 碎碎碎碎念
- 爬虫学习碎碎念——beautifulsoup,信息提取
- 【搜索引擎基础知识2】网络爬虫的介绍
- 【搜索引擎基础知识2】网络爬虫的介绍
- 碎碎念
- 碎碎念
- 碎碎念。。。
- 碎碎念
- 碎碎念
- 碎碎念
- 碎碎念
- 碎碎念
- 碎碎念
- 配置shell显示颜色
- 定时器2
- call 和 ret 指令
- 【BZOJ】【P1004】【HNOI2008】【Cards】【题解】【Burnside引理+dp】
- HD1754-I Hate It 线段树基础
- 网络爬虫基础知识碎碎念
- 认识AppDelegate文件,
- #include <vector>
- 自定义ProgressBar---跟随进度的 Popwindow
- 新建Android工程,出现default与Displaying的问题
- 通过telnet的攻击
- 多核和亲和性
- 利用虚拟机virtualbox配置Hadoop开发环境总结
- 关于删除tomcat的应用服务