【搜索引擎基础】spider
来源:互联网 发布:淘宝商城森马男装 编辑:程序博客网 时间:2024/06/02 04:15
一、概念
Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。
二、搜索策略
- IP 地址搜索策略
- 深度优先搜索策略
- 广度优先搜索策略
- 专业搜索引擎的爬虫策略
目前,专业搜索引擎网络爬虫通常采用“最好优先”原则访问WEB,即为快速、有效地获得更多的与主题相关的页面(简称“回报”),每次选择“最有价值”的链接进行访问。由于链接包含于页面之中,而通常具有较高价值的页面包含的链接也具有较高的价值,因而对链接价值的评价有时也转换为对页面价值的评价。
三、网站访问
网络爬虫需要抓取网页,不同于一般的访问,如果控制不好,则会引起网站服务器负担过重。每个爬虫都有自己的名字,在抓取网页的时候,都会向网站标明自己的身份。爬虫在抓取网页的时候会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此爬虫的身份。例如Google的标识为GoogleBot,Baidu的标识为BaiDuSpider,Yahoo的标识为Inktomi Slurp。如果在网站上有访问日志记录,网站管理员就能知道,哪些搜索引擎的爬虫过来过,什么时候过来的,以及读了多少数据等等。如果网站管理员发现某个爬虫有问题,就通过其标识来和其所有者联系。四、robots协议
robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。2012年8月,奇虎360被曝违反Robots协议。
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。更多内容:http://baike.baidu.com/view/9274458.htm
五、内容提取
搜索引擎建立网页索引,处理的对象是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后,需要把这些文件中的文本信息提取出来。准确提取这些文档的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。引用:
http://bbs.supadmin.com/thread-51313-1-1.html
http://www.hudong.com/wiki/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%E7%A8%8B%E5%BA%8F?prd=so_1_doc
http://baike.baidu.com/view/9274458.htm
- 【搜索引擎基础】spider
- 搜索引擎Spider特性
- 搜索引擎(1)Spider抓取网页
- spider/pyspider基础
- 以搜索引擎Spider的视角设计网页
- PHP识别Robot(Spider,机器人,搜索引擎)函数
- 搜索引擎中Spider的可扩展性设计
- 搜索引擎与Web Spider原理详解
- PHP识别Robot(Spider,机器人,搜索引擎)函数
- epoll机制在搜索引擎spider中的应用
- epoll机制在搜索引擎spider中的应用
- 搜索引擎蜘蛛spider分类 蜘蛛都有哪几类
- Spider
- spider
- Spider
- spider
- spider
- spider
- 第一章 认清机运的本质
- C#索引器
- java中byte数组与int类型的转换(两种方式)
- 算法实现字符串匹配问题:从三个字符串中找出共有的最长部分。
- GT_COUNT_支配值数目
- 【搜索引擎基础】spider
- 队列——郝斌版
- tarjen
- GCC/G++ 基本用法
- 通过JDBC访问数据 实例
- 多维数组转换成字符串和将数组完整写入文件
- 矩阵相乘的快速算法(施特拉森-Strassen算法)
- paip.提升用户体验----解决浏览器关闭后自动退出的问题
- java打包方式 jar,war,ear