shell爬虫工具
来源:互联网 发布:sql拼接字符串 编辑:程序博客网 时间:2024/05/16 12:49
一.工具
1.wget
2.curl
3.sed
4.awk
5.lynx
6.grep
二.方法
1.lynx -dump URL #获取文本页面
2.grep关键字
3.sed/awk + 正则表达式 取得连接
4.curl取得页面所有信息(分析连接有效性,设置cookie信息)
5.wget下载资源
三.例子,获取gmail未读邮件
#!/bin/bashusername="@gmail.com"password=""curl -u $username:$password --silent "https://mail.google.com/mail/feed/atom" | \tr -d '\n' | sed 's:</entry>:\n:g' | \sed 's/.*<title>\(.*\)<\/title>.*<author><name>\([^<])*\)<\/name><email>\([^<]*\)/Author: \2 [\3] \n Subject:\1\n/g'
- shell爬虫工具
- shell爬虫
- shell工具
- Larbin 爬虫工具介绍
- Larbin 爬虫工具介绍
- php写爬虫工具
- 爬虫/抓取工具汇总
- htmlunit爬虫工具使用
- python的爬虫工具
- Python 爬虫工具列表
- 爬虫工具fiddler
- java 网络爬虫工具
- 爬虫工具:PhantomJS
- hawk爬虫工具
- Python 爬虫 工具 列表
- Linux Shell 实现网页爬虫
- SHELL网络爬虫实例剖析
- 爬虫原理 和 开源爬虫工具
- PyQt4 学习之菜单和工具栏
- 时间复杂度
- poj-1742-背包
- cvSVM及trainSVM参数
- JavaScript 对象和字串之间的转换
- shell爬虫工具
- 编译ffmpeg 'XXXX' follows non-static declaration错误解决办法
- F7控件经常被设置各种过滤条件
- quilt 的使用例子
- 20130419阿里电话面试记录
- POJ 1038 Bugs Integrated, Inc. 三进制压缩DP
- eclipse
- MFC 串口检测
- 多线程