简书首页推荐文章文字爬取,用txt保存
来源:互联网 发布:移动网络投诉处理 编辑:程序博客网 时间:2024/04/30 18:09
发现简书上有些文章还挺不错,页面如下:
然后就手痒写了几行代码,用xpath匹配的方法将首页推荐的文章的内容抓了下来,它有一个“显示更多的按钮”,每次click一下,就会再出现一些内容,这次我设置的是抓了4次更多。
之后就是保存在本地了,代码不多,但是还算实用,只是没有将文章里的图片给配套爬取。
代码如下:
package qita;import java.io.IOException;import java.util.Vector;import java.io.FileWriter;import com.hpre.spider.common.Function;import com.hpre.spider.tools.Tools;public class Download_jianshu { public static void main(String[] args) throws IOException { String url = "http://www.jianshu.com/"; byte[] information = Function.download(url);// System.out.println(new String(information)); Vector<String> hrefs = new Vector<String>(); Vector<String> title = new Vector<String>(); Vector<String> tiaoye = new Vector<String>(); FileWriter writer; Tools.getMultiResultsByOneXpathPattern(information, "utf-8", "//div[@class='load-more']/button/@data-url", tiaoye); Tools.getMultiResultsByOneXpathPattern(information, "utf-8", "//div[@id='list-container']//li[@class='have-img']/div/h4/a/text()", title); Tools.getMultiResultsByOneXpathPattern(information, "utf-8", "//div[@id='list-container']//li[@class='have-img']/div/h4/a/@href", hrefs); for (int j = 0 ;j<tiaoye.size()&&j<=4;j++){ String page_url = url + tiaoye.get(j); byte[] more_information = Function.download(page_url); Tools.getMultiResultsByOneXpathPattern(more_information, "utf-8", "//div[@class='load-more']/button/@data-url", tiaoye); Tools.getMultiResultsByOneXpathPattern(more_information, "utf-8", "//div[@id='list-container']//li[@class='have-img']/div/h4/a/text()", title); Tools.getMultiResultsByOneXpathPattern(more_information, "utf-8", "//div[@id='list-container']//li[@class='have-img']/div/h4/a/@href", hrefs); } for (int i = 0;i<hrefs.size();i++){ Vector<String> content = new Vector<String>(); String new_href = url + hrefs.get(i); byte[] detail_information = Function.download(new_href); Tools.getMultiResultsByOneXpathPattern(detail_information, "utf-8", "//div[@class='show-content']//p/text()", content); System.out.println(content.toString()); writer = new FileWriter("C://Users//Administrator//Desktop//jianshu//"+title.get(i).trim().replace("|", "") .replace("?", "")+".txt"); for (int n = 0;n<content.size();n++){ String lines = content.get(n).trim() + "\r\n"; writer.write(lines); } writer.flush(); writer.close(); } }}
0 0
- 简书首页推荐文章文字爬取,用txt保存
- 使用Scrapy爬取CSDN博客首页文章
- 爬取网页中的文章写成本地txt文件
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- Python爬虫小实践:爬取任意CSDN博客所有文章的文字内容(或可改写为保存其他的元素),间接增加博客访问量
- java爬虫之爬取博客园推荐文章列表
- python3爬虫 爬取图片,爬取新闻网站文章并保存到数据库
- 爬取新浪国内新闻首页
- 爬取新浪首页图片
- 爬取网站中的邮箱保存到本地txt文件中
- Scrapy教程——搭建环境、创建项目、爬取内容、保存文件(txt)
- Python爬取新浪英超曼联文章内页--bs4,json,txt和csv以及编码
- 又有一篇文章被推荐到CSDN首页
- dfa只有原创和翻译文章才能推荐到首页
- 原创和翻译文章才能推荐到首页
- 只有原创和翻译文章才能推荐到首页
- *只有原创和翻译文章才能推荐到首页
- *只有原创和翻译文章才能推荐到首页
- 图片鼠标悬停特效 Adipoli 20多种效果jQuery插件
- POJ-1159-Palindrome
- python自然语言处理:编码问题
- xcode 中使用ffmpeg 编译的静态库
- lamp的搭建
- 简书首页推荐文章文字爬取,用txt保存
- C语言入门(十九)指针函数和函数指针
- 技术解析 | 两台成云—大华微型云存储系统
- 如何自学Android编程——Android自学资料大全
- App上线被拒的各种原因(英文及翻译)
- 同一个界面多个子控制器切换视图
- hdu 5203(枚举)
- C++虚函数,纯虚函数,抽象类
- 多tableView的滑动显示