Linux Shell 实现网页爬虫
来源:互联网 发布:安卓控制电脑软件 编辑:程序博客网 时间:2024/06/05 17:28
#!/bin/bash
do
{
echo $CID
lynx -dump http://cheminfov.informatics.indiana.edu/rest/Chem2Bio2RDF/slap/cid=$CID | grep "see paths" > target#抓取网页并获得包含"see paths"的行,写入target文件
cat target | grep -Eo "[A-Z]+[A-Z|0-9]*" > ./slap/bak$CID#正则表达式提取所需要的字段
cat ./slap/bak$CID | awk '{ print VAR,$0 } ' VAR=$CID > ./slap/$CID#格式化输出到slap文件夹下
rm -r ./slap/bak$CID
echo $CID"is done!"
}
done
- Linux Shell 实现网页爬虫
- python实现网页爬虫
- Python scrapy 实现网页爬虫
- Python3+Scrapy实现网页爬虫
- linux C++ 爬虫抓取网页
- 网页爬虫抓取URL简单实现
- htmlparser爬虫实现网页上的图片下载
- C#实现简单的网页爬虫
- Java 实现简单网页小爬虫程序
- 网页爬虫原理及java实现
- 基于BeautifulSoup解析的网页爬虫实现
- Java实现网络爬虫001-抓取网页
- 网页爬虫-R语言实现基本函数
- 网页爬虫-R语言实现基本函数
- shell脚本编写,实现爬虫挂掉后重启
- 网页爬虫,HttpClient+Jericho HTML Parser 实现网页的抓取
- 网页抓取:PHP实现网页爬虫方式小结
- 网页抓取:PHP实现网页爬虫方式小结
- oracle 4中循环的写法
- C#用正则表达式替换多行注释
- Android 为何Monkey测试后不能关机
- NimbusBase Demo
- php扩展xdebug基本使用
- Linux Shell 实现网页爬虫
- PPP
- Ubuntu上用快捷键关闭没有响应的程序
- wamp集成环境开启rewrite伪静态支持
- Hive+UDTF简单示例
- Linux用户进程内存泄露一种检测方法
- SAP库存管理预留功能评测
- 服务器登陆首页提示
- Android开发:ImageView 设置圆角边框