关于一个抓取网站图片脚本的解析
来源:互联网 发布:软件开发数学 编辑:程序博客网 时间:2024/06/04 23:02
//获取图片URL并保存到faceks.txtcurl "http://www.somewebsite.com/sitemap.xml" |grep -o "http://.*post/.\{14\}" |xargs curl -m 60 --retry 20 |grep "bigimgsrc" |grep -o "http://imglf.*.jpg" > somewebsite.txt//批量下载文件,不重复下载已有并且较新的文件wget -i somewebsite.txt -P faceks -t 10 -T 30 -N
其中grep -o代表的是精确匹配后面的正则表达。
xargs是将前面解析得到的结果进行批量执行。
curl -m 代表的是处理的最大时长。
grep是抓取符合正则的一行数据。
然后将抓到的所有图片链接写入somewebsite.txt。
wget -i是指从文件中按行读取url连接。
-N 代表的是只下载比本地新的文件。
-T 代表超时等待时间
-t 代表重试次数
0 0
- 关于一个抓取网站图片脚本的解析
- PHP抓取网站图片脚本
- shell脚本写的一个图片抓取器
- 一个scrapy抓取网站独立脚本
- 抓取网页图片的脚本(javascript)
- python抓取网页图片的脚本
- 爬虫:实现网站的全部图片抓取
- 不和谐网站图片抓取
- 资源:一个 SilverLight Sample 的网站,关于图片特效的
- 一个PHP的远程图片抓取函数
- 一个简单的图片抓取器
- 关于WebView中抓取图片的问题
- 一个抓取网页解析内容的程序。
- 使用java的html解析器jsoup实现一个自动重复抓取任意网站页面指定元素的web应用
- 自动抓取和下载页面图片的脚本
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- JAVA抓取网页的图片,JAVA利用正则表达式抓取网站图片
- mysql 按周、日进行数据统计
- SharePoint 网站集 升级到SharePoint2013 的方法(重点 是一个新的概念创建,升级评估网站)
- iOS开发的一些奇巧淫技2
- iOS开发的一些奇巧淫技3
- FreeMarker内置函数及其用法
- 关于一个抓取网站图片脚本的解析
- 在Ubuntu 14.04平台上利用Intel的GPU实现硬件加速--基于VAAPI
- ubuntu 13.10下安装vmware workstation 11
- 连号区间数 小明这些天一直在思考这样一个奇怪而有趣的问题:
- CSS currentColor研究
- 秒杀多线程第十六篇 多线程十大经典案例之一 双线程读写队列数据
- SpriteKit游戏开发点滴(0)前言
- adb logcat命令详解
- 黑马程序员——ObjC基础—属性及封装