程序博客网 > 软件验收标准模板

python爬虫基础

来源：互联网发布：软件验收标准模板编辑：程序博客网时间：2024/06/03 17:05

- - - - robots文件
      - sitemap文件

robots文件

robots.txt文件一般放在网站根目录下，用于规范爬虫的行为，比如规定哪些爬虫不可以爬取，或哪些网页不可以爬取等等。
如：

User-agent: badDisallow: /User-Agent:goodDisallow:User-Agent:*Disallow:/test

第一个是对于bad这个用户/代理，禁止爬取此网站所有网页
第二个是对于good这个用户/代理，允许爬取所有网页
第三个是对所有用户/代理，禁止爬取前缀为test的网页，如test.html

sitemap文件

sitemap.xml这个文件一般存放网站所有网页的地址

阅读全文

0 0

软件验收标准模板

软件验收标准模板

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子滑板那个品牌好滑板有什么牌子 vans滑板多少钱板鞋和滑板鞋电动滑板车吧滑板图片吧滑板圈滑板店滑板旗舰店 1985滑板店滑板桥品牌电滑板滑板车英语滑板车简笔画 ninebot电动滑板车电动滑板车排名滑板车什么牌子质量好电动滑板车别上路滑板车配件滑板车品牌排行榜电动滑板车生产厂家好孩子滑板车 evo电动滑板车阿尔郎电动滑板车小孩滑板车多少钱滑板车多少钱幼儿滑板车小儿滑板车小童滑板车玩滑板车滑板车推荐滑板车报价电滑板车儿童滑板车怎么玩自制滑板车滑板车座滑板车排名滑板车排行小五电动滑板车雪地滑板车单脚滑板车