基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
来源:互联网 发布:陕西乡土文化数据 编辑:程序博客网 时间:2024/05/29 13:47
基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
代码:
https://code.csdn.net/u012995856/javacrawler/tree/master
效果:
1.使用WebCollector抓取糗百的url
QiuShiBaiKe.java
package com.huijiasoft.pangPython.crawler;import java.util.ArrayList;import java.util.List;import com.huijiasoft.pangPython.utils.AppendToTXT;import cn.edu.hfut.dmic.webcollector.model.CrawlDatums;import cn.edu.hfut.dmic.webcollector.model.Page;import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler;/** * @author pangPython * @function 抓取糗事百科网页URL */public class QiuShiBaiKe extends BreadthCrawler{ static List<String> list = new ArrayList<String>(); public QiuShiBaiKe(String crawlPath, boolean autoParse) { super(crawlPath, autoParse); addSeed("http://www.qiushibaike.com"); addRegex("http://www.qiushibaike.com/\\w*/"); addRegex("http://www.qiushibaike.com/\\w+/\\d+/"); addRegex("http://www.qiushibaike.com/\\w+/\\w+/\\w+/\\w+/"); addRegex("http://www.qiushibaike.com/\\w+/\\w+/\\d*/?\\w*"); } @Override public void visit(Page page, CrawlDatums arg1) { String url = page.getUrl(); System.out.println(url); list.add(url); } public static void main(String[] args) throws Exception { QiuShiBaiKe qsbk = new QiuShiBaiKe("qsbk", true); qsbk.setThreads(50); qsbk.setTopN(5000); qsbk.start(6); AppendToTXT.ToTXT("qsbk.txt", list); }}
2.使用shell脚本
思路:按行读取抓取的txt文本,拼接成命令行字符串,使用eval执行字符串命令
这里使用一个工具cutycapt
使用
cutycapt -url=https://www.baidu.com -out=1.png
需要替换的就是url,然后图片名称用随机数来生成文件名.
getqsbk.sh
#!/bin/bashg1="cutycapt --url="g2=" --out="g3=".png"cat qsbk.txt | while read linedo g=${g1}$line${g2}$RANDOM${g3} eval $gdone
这段shell脚本需要在有GUI界面的linux系统中运行.
赋予可执行权限
chmod +x getqsbk.sh
执行
./getqsbk.sh
0 0
- 基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
- Python3 定向爬虫之“抓取糗事百科图片”
- [python爬虫] 抓取糗事百科的爬虫程序
- 基于Python的一个简单爬虫(糗事百科爬虫)
- java抓取糗事百科内容
- Python网络爬虫抓取糗事百科
- 糗事百科的网络爬虫
- python抓取糗事百科段子 图片
- Python网络爬虫(6)糗事百科图片抓取按主题名保存
- python爬虫爬取糗事百科图片
- Python爬虫实例2-多线程爬虫抓取糗事百科数据
- python3爬虫(二)实战- 爬糗事百科
- Python - 静态页面抓取(抓取‘糗事百科’段子)
- python抓取糗事百科的段子
- Python实现抓取糗事百科的段子
- Python3.4简单爬虫实现之抓取糗事百科段子
- Python网络爬虫(5)糗事百科段子抓取
- 爬虫实战--抓取糗事百科前10页数据
- 婚姻:中国男性求婚越来越奢侈 太寒酸怕娶不到媳妇
- MySQL 的 20+ 条最佳实践
- java自定义线程池--ThreadPoolExecutors
- XmlPullParser解析xml
- react native ref的使用
- 基于WebCollector的java爬虫(二)配合shell+cutycapt抓取糗事百科页面生成图片
- 关于uploadify插件的一点坑坑洼洼
- maven如何为不同的环境打包-开发、测试、生产环境
- 通过传参数控制单元格的内容及可写属性
- .h头文件中的ifndef/define/endif 的作用
- 解决ScrollView嵌套listview出现进入页面不在顶部的问题
- 我看到的计算机
- 求助python的问题
- STM32各种时钟的来源