关于一个抓取网站图片脚本的解析

来源:互联网 发布:软件开发数学 编辑:程序博客网 时间:2024/06/04 23:02
//获取图片URL并保存到faceks.txtcurl "http://www.somewebsite.com/sitemap.xml" |grep -o "http://.*post/.\{14\}" |xargs curl -m 60 --retry 20 |grep "bigimgsrc" |grep -o "http://imglf.*.jpg" > somewebsite.txt//批量下载文件,不重复下载已有并且较新的文件wget -i somewebsite.txt -P faceks -t 10 -T 30 -N

其中grep -o代表的是精确匹配后面的正则表达。

xargs是将前面解析得到的结果进行批量执行。

curl -m 代表的是处理的最大时长。

grep是抓取符合正则的一行数据。

然后将抓到的所有图片链接写入somewebsite.txt。

wget -i是指从文件中按行读取url连接。
-N 代表的是只下载比本地新的文件。
-T 代表超时等待时间
-t 代表重试次数

0 0
原创粉丝点击