用wget避开robots.txt的下载限制
来源:互联网 发布:淘宝女装店广告语 编辑:程序博客网 时间:2024/04/30 11:41
在网站的目录下放置一个robots.txt,并在里面禁止wget的行为,那么默认情况下wget是不会下载整个网站的内容的。
比如wget -r http://www.example.com的时候,如果www.example.com上面放了一个robots.txt并在里面注明wget disallow的话。
那么wget就默认不会下载这个网站。
如果想要让wget忽略robots.txt的规则的话,那么就加上-e robots=off,同时,注意网站管理员加上robots.txt经常是因为负载的考虑,所以记得我们加上--wait 1来减少我们的下载对服务器的负担。
参考:
- http://addictivecode.org/FrequentlyAskedQuestions#How_can_I_make_Wget_ignore_the_robots.txt_file.2BAC8-no-follow_attribute.3F
- http://www.thegeekstuff.com/2009/09/the-ultimate-wget-download-guide-with-15-awesome-examples/: 15个wget的典型应用场景
一个常用的wget保存整个网站的option组合:
wget --mirror --no-parent --page-requisites --convert-links --no-host-directories --cut-dirs=2 --load-cookies cookies.txt --directory-prefix=. http://www.example.com/wiki/index.php/Main_Page
- 用wget避开robots.txt的下载限制
- wget 忽略 robots.txt
- 网址受到robots.txt的限制
- wget使用 && wget忽略robots.txt
- heritrix 在Prefetcher中取消robots.txt的限制
- heritrix 在Prefetcher中取消robots.txt的限制
- heritrix中在Prefetcher中取消robots.txt的限制
- wget 下载不了的文件,因为需要cookie.txt,用curl命令下载
- 用wordpress建站robots.txt的写法
- robots.txt的格式
- robots.txt 的作用
- robots.txt的作用
- 如何写robots.txt?关于robots.txt的制作
- robots.txt写法大全和robots.txt语法的作用
- 关于robots.txt的书写
- 关于robots.txt 的用法
- robots.txt文件的奥秘
- SNS网站的ROBOTS.TXT
- 分布式的几个问题
- test
- WinSock Recvfrom() 现在返回 WSAECONNRESET 代替阻止或超时(WSAIoctl中的SIO_UDP_CONNRESET参数)
- Ubuntu 下 Eclipse 界面不紧凑
- SSH配置文件 带事务
- 用wget避开robots.txt的下载限制
- 2010/9/25
- gpu programming guide for g80(dx9)
- 局域网通讯客户端 主要源代码
- MaxScript入门指引系列(四)MaxScript Editor和Macroscripts
- struts2——action接受参数!!!
- JavaScript对象创建的几种方式及使用方法
- VIP 在systemverilog中的使用--ahb example
- 索引维护