SiteSucker使用记录
来源:互联网 发布:淘宝爱他美是真是假 编辑:程序博客网 时间:2024/06/06 02:52
之前有试过用爬虫的方式扒取整个网站,缺点是耗时长,需要做的分析工作比较多,但是也有优点,完整分析后对整个网站的结构比较清晰,修改起来比较方便。最近领导给了个任务,给一天时间扒下来一个段子网站,很头疼,分析网站,写爬虫,再进行正则替换,这一套下来怎么着也得半个星期吧。然后本着轮子还是别人造的好的精神,谷歌(百度)到了这款软件。顺便吐槽下,这款软件网上的攻略都不给力啊,来一篇自己的踩到坑坑记录吧。
下载安装
- 自行百度SiteSucker
软件界面
功能介绍
- 整站下载
- 图形化界面
使用指南I
- 在输入框中输入要爬取的种子url(一般网站首页吧,看你心情)
- 回车开始爬,over
使用指南II
- 通过设置Path Constraints可选择爬取范围
- None: 无限制
- Host: 与种子 url 属同一个(子)域
- Directory: 与种子 url 属于统一路径
- Paths Settings: 当前 url + 自定义 Paths Settings
- File Modification设置为Localize可以自动帮你关联本地js、css等文件
- File Replacement可以选择重复爬取的文件是覆盖还是怎么着
- 可以通过设置Levels来决定爬取的深度
- 多个爬取任务可以添加到queue,爬取配合设置的爬取深度可自动切换任务
- 爬取过程中分析文件占了很长的时间,如果爬到一半不想爬了可以先停止分析,把下载队列里的文件都下完就自动停止了
- 可以在webpage->patterns里面对爬取内容设置正则替换(有不可言说的妙用…)
- request里面可以选择ua,还可以设置尝试次数
- FileType里面可以过滤爬取的类型,比如视频(老司机微微一笑)
- preference里面还可以设置同时开启的连接数(加速)
- 需要登录才能抓取的,先在Open Browser中登录然后开始抓(过弯)
- Ignore Robot Exclusions可以突破rotots.txt的限制(起飞)
- 通过设置Path Constraints可选择爬取范围
阅读全文
1 0
- SiteSucker使用记录
- SiteSucker使用记录
- [问题记录]log4j使用记录
- 使用xsl筛选记录
- CVS 使用点滴记录
- boos.Program_options使用记录
- FlexCompress使用记录
- JFreeChart使用记录
- 虚拟主机使用记录(01)
- 虚拟主机使用记录(02)
- GridView使用一些记录
- 虚拟主机使用记录(03)
- Ubuntu使用问题记录,
- 记录的使用
- fbook使用记录一
- FreeBSD 6.2 使用记录
- windows使用记录
- 使用记录080417
- 微电子半导体集成电路专业术语英语整理
- 10月10日云栖精选夜读:阿里云Tech Insight 企业迁云实战专场强势来袭!
- FairGUI基础
- 盒子模型里面的margin属性和padding属性杂记
- Oracle:导出表(即DMP文件)的两种方法
- SiteSucker使用记录
- C语言之指针(2)
- linux学习日记
- unity使用NAudio/NVorbis加载外部音频文件
- unity虚拟摇杆控制 Virtual Joystick
- 字符串的压缩
- js解决按需引入文件(IOS11引入fastclick有bug)
- Python才是世界上最好的言语,php,java靠边站
- activiti之流程变量