有关网络爬虫的一些基本概念(一)
来源:互联网 发布:喀秋莎录屏软件的使用 编辑:程序博客网 时间:2024/05/16 10:48
网络爬虫:(又被称为网页蜘蛛,网络机器人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。
URI(Uniform Resource Identifier 统一资源标识符)一般由三部分组成:1.访问资源的命名机制(方案名、协议)2.存放资源的主机名(域名)3.资源自身的名称(路径)。
例:http://www.cisco.com/en/US/partners/index.html
方案名 (http
)
域名 (www.cisco.com
)
路径 (/en/US/partners/index.html
)
URL是Uniform Resource Locator的缩写,译为“统一资源定位符”:URL的格式由下列三部分组成:
第一部分是协议(或称为服务方式);
第二部分是存有该资源的主机IP地址(有时也包括端口号);
第三部分是主机资源的具体地址。,如目录和文件名等。
第一部分和第二部分之间用“://”符号隔开,第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的,第三部分有时可以省略。
URL示例
文件的URL:
用URL表示文件时,服务器方式用file表示,后面要有主机IP地址、文件的存取路径(即目录)和文件名等信息。有时可以省略目录和文件名,但“/”符号不能省略。
例:file://a:1234/b/c/d.txt
代表获取资源使用ftp协议,资源目标是a主机的1234端口的b目录下的c目录下的d.txt。
0 0
- 有关网络爬虫的一些基本概念(一)
- [Python]网络爬虫(一):一些基本概念
- 有关进程的一些基本概念
- 有关MQ中的一些基本概念(一)
- 网络协议的一些基本概念
- 网络编程的一些基本概念
- Python有关爬虫的一些总结
- 一、图的一些基本概念
- 有关**迭代学习**控制的一些基本概念
- 网络一些基本概念
- 一些跟网络有关的参数解释
- 有关网络编程的一些面试
- Python爬虫(一):基本概念
- 学习C的一些基本概念(一)
- 数字电视范畴的一些基本概念一
- 有关图像的基本概念
- 有关算法的基本概念
- GSM网络中的一些基本概念(仅一些基本的术语)
- 如何学好C语言
- OC类的理解(资料收集及自己认知)
- [java网络编程]一个简易网络服务器的实现
- haproxy介绍以及基本配置范例
- C语言(七)枚举
- 有关网络爬虫的一些基本概念(一)
- JAVA语言中的反射机制
- 【自考总结】——数据库原理
- 网页右键锁定
- div css 如何让两端文字对齐
- Request.getparameternames有什么用
- Scala学习笔记1--基础语法
- Cocos2d-x 自定义血条及其美化----之游戏开发《赵云要格斗》(4)cocos2dx 3.3移植版
- 新导入工程报Unable to resolve target 'android-18'和R cannot be resolved