Linux Shell 实现网页爬虫

来源：互联网发布：安卓控制电脑软件编辑：程序博客网时间：2024/06/05 17:28

#!/bin/bash

cat ./cidlist | while read CID #从文件cidlist读取CID

do
{
echo $CID
lynx -dump http://cheminfov.informatics.indiana.edu/rest/Chem2Bio2RDF/slap/cid=$CID | grep "see paths" > target#抓取网页并获得包含"see paths"的行，写入target文件

cat target | grep -Eo "[A-Z]+[A-Z|0-9]*" > ./slap/bak$CID#正则表达式提取所需要的字段

cat ./slap/bak$CID | awk '{ print VAR,$0 } ' VAR=$CID > ./slap/$CID#格式化输出到slap文件夹下

rm -r ./slap/bak$CID
echo $CID"is done!"
}

done

Linux Shell 实现网页爬虫
python实现网页爬虫
Python scrapy 实现网页爬虫
Python3+Scrapy实现网页爬虫
linux C++ 爬虫抓取网页
网页爬虫抓取URL简单实现
htmlparser爬虫实现网页上的图片下载
C#实现简单的网页爬虫
Java 实现简单网页小爬虫程序
网页爬虫原理及java实现
基于BeautifulSoup解析的网页爬虫实现
Java实现网络爬虫001-抓取网页
网页爬虫-R语言实现基本函数
网页爬虫-R语言实现基本函数
shell脚本编写，实现爬虫挂掉后重启
网页爬虫，HttpClient+Jericho HTML Parser 实现网页的抓取
网页抓取：PHP实现网页爬虫方式小结
网页抓取：PHP实现网页爬虫方式小结
oracle 4中循环的写法
C#用正则表达式替换多行注释
Android 为何Monkey测试后不能关机
NimbusBase Demo
php扩展xdebug基本使用
Linux Shell 实现网页爬虫
PPP
Ubuntu上用快捷键关闭没有响应的程序
wamp集成环境开启rewrite伪静态支持
Hive+UDTF简单示例
Linux用户进程内存泄露一种检测方法
SAP库存管理预留功能评测
服务器登陆首页提示
Android开发：ImageView 设置圆角边框