从robots.txt开始网页爬虫之旅

来源:互联网 发布:下电视剧的软件 编辑:程序博客网 时间:2024/04/30 09:20

        做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

        当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

         那我们应该怎样使用robots.txt呢?

         第一: robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
         第二:必须遵循以下语法:
                             最简单的 robots.txt 文件使用三条规则:
                             :User-Agent: 适用下列规则的漫游器(比如百度(Baiduspider)、Google(Googlebot))
                             :Disallow: 要拦截的网页(可以和)
                             :Allow: 允许语法(Disallow结合起来使用)

        接下来让我们看下实际应用。

一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序文件、附件、图片、数据库文件、模板文件、样式表文件、编码文件、脚本文件我们可以写以下robots.txt内容:

       User-agent: *
       Disallow: /admin/ 后台管理文件
       Disallow: /require/ 程序文件
       Disallow: /attachment/ 附件
       Disallow: /images/ 图片
       Disallow: /data/ 数据库文件
       Disallow: /template/ 模板文件
       Disallow: /css/ 样式表文件
       Disallow: /lang/ 编码文件
       Disallow: /script/ 脚本文件

如果你想允许所有搜索引擎访问网站的所有部分

1、你可以建立一个空白的文本文档,命名为robots.txt
2、User-agent: *
       Disallow:
3、User-agent: *
      Allow: /

如果你想禁止所有搜索引擎访问网站的所有部分,把上面2中改成    Disallow: /    就可以了

如果你想禁止百度    User-agent: Baiduspider

如果你想禁止除Google外的一切搜索引擎

       User-agent: Googlebot
       Disallow:
       User-agent: *
       Disallow: /

注:其实并非所有的爬虫都会遵从robots.txt协议的,因为我们可以制造恶意爬虫,哈哈

3 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 神经病人不吃药怎么办 事故全责不赔钱怎么办 吃精神药物发胖怎么办 郑州出院限号怎么办 林场改革森林消防怎么办 网络课没有看完怎么办 福建省会计证未换怎么办 国税地税登记后怎么办 网上发票领不了怎么办 合肥餐饮怎么办环评 地税财务报表上传错误怎么办? 平安体检卡过期怎么办 到医院挂号后怎么办 一吹风就头痛怎么办 平安口袋e怎么办离职 学员学分卡号怎么办 华医网注册错了怎么办 医师继续教育学分不够怎么办 执业医师学分卡怎么办 护士学分5年没办怎么办 华医网职称录入错误怎么办 在北京没有学历怎么办 继续教育证书丢了怎么办 继续教育证丢了怎么办 继续教育档案丢了怎么办 现在会计证丢了怎么办 初级准考证丢了怎么办 协助调查48小时怎么办 有个抑郁症父亲怎么办 法院不给立案怎么办 眼睛发炎有眼屎怎么办 外伤后眼白出血怎么办 斜视手术失败了怎么办 角膜划伤恢复慢怎么办 机场海关扣行李怎么办 被消防参谋恐吓怎么办 公安局贴的封条怎么办 公司倒闭后诉讼怎么办 股东不配合清算怎么办 消防罚款不交怎么办 武警撤勤海关怎么办