用wget下载网站,实现离线浏览

来源:互联网 发布:grapher软件绘图教学 编辑:程序博客网 时间:2024/03/29 19:16

资料来源:http://www.truevue.org/linux/wget-download-website

想下一些LSF的文档,windows下的离线浏览有teleport等软件可以选择,Linux下面的类似的离线浏览的软件就更多了。

本来想看看能不能用curl来实现整个网站下载,后来发现curl没有网站下载这个功能。Linux下面除了curl外另一个强大的软件就是wget。

发现wget果然强大,有网站下载这个功能,而且还可以控制网站下载的方式,下面就是wget进行网站下载的命令:

$ wget \     --recursive \     --no-clobber \     --page-requisites \     --html-extension \     --convert-links \     --restrict-file-names=windows \     --domains w3schools.com \     --no-parent \         http://www.w3schools.com/html/default.asp

上面的命令会下载 http://www.w3schools.com/html/default.asp 下面所有的页面。

上面用到的wget网站下载选择解释:

  • --recursive: 下载整个网站
  • --domains w3schools.com: 不要下载指定域名之外的网页。
  • --no-parent: 仅下载html/文件夹下的网页。
  • --page-requisites: 现在网页包括的所有内容(images, CSS and so on).
  • --html-extension: 将网页保存为html文件。
  • --convert-links: 将连接转换为本地连接
  • --restrict-file-names=windows: 文件名保存为windows格式。
  • --no-clobber: 不要覆盖已有文件,在下载中断后继续下载。