JAVA 简单爬虫
来源:互联网 发布:导航仪软件 编辑:程序博客网 时间:2024/06/04 19:25
JAVA 简单爬虫DEMO
package webSpide.com;import java.security.GeneralSecurityException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class MyWebSpide {/** * @param args * HtmlUnit 配合 jsoup 完成异步加载的额数据 * @throws GeneralSecurityException */public static void main(String[] args) throws GeneralSecurityException {try {String url = "http://search.jiayuan.com/v2/index.php";//String url = "https://www.toutiao.com/";WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);webClient.setJavaScriptEnabled(true);webClient.setCssEnabled(false);webClient.setActiveXNative(false);webClient.setThrowExceptionOnScriptError(false);webClient.setThrowExceptionOnFailingStatusCode(false);webClient.setTimeout(5000);webClient.setUseInsecureSSL(true); webClient.getCookieManager().setCookiesEnabled(true); HtmlPage rootPage = webClient.getPage(url);//设置一个运行JavaScript的时间webClient.waitForBackgroundJavaScript(5000);String html = rootPage.asXml();Document document = Jsoup.parse(html);// TODO Auto-generated method stub//String userAgen = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31";// String url = "http://search.jiayuan.com/v2/index.php";// Connection conn = Jsoup.connect(url).userAgent(userAgen).timeout(1000);//Document document = conn.get();//System.out.println(document.html());Elements elements = document.select("div[class=hy_box]");for(int i = 0 ;i < elements.size() ; i++){Element elemtUserInfoOne = elements.get(i).select("p[class=user_info]").first();Element elemtUserInfoTwo = elements.get(i).select("p[class=zhufang]").first();String one = elemtUserInfoOne.text();String two = elemtUserInfoTwo.text();System.out.println(one+" "+two);}} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();}}}很久以来对爬虫有兴趣,最近从网上下了源码研读了一下爬虫,当然我现在的水平只是菜鸟级别。所写的也只是一个简单的页面。没有太过复杂的东西。
我所理解的爬虫就是分析网页 html 超文本标记语言,从中提取自己想要爬取的信息,当然其中会涉及到一系列的问题,其中最明显的就是有些数据是延迟加载出来的。上面
代码就是使用 HtmlUnit 配合 jsoup 完成异步加载的额数据
HtmlUnit 可伪装成浏览器访问数据,通过设置加载的时候,得到加载后的页面。HtmlUnit jar 包:http://pan.baidu.com/s/1eSzojBW 密码 moybjsoup jar 包: http://pan.baidu.com/s/1o8hwVXo 密码 u9kh此为我下载的爬虫 demo ,是通过 java 实现。https://github.com/wycm/zhihu-crawler
阅读全文0 0
- java 简单爬虫
- java 简单网络爬虫
- Java简单爬虫示例
- 简单的JAVA爬虫
- java 爬虫简单介绍
- JAVA 简单爬虫
- java 简单爬虫练习
- java的简单爬虫
- 简单的java爬虫程序
- Java 简单的BFS爬虫
- java实现的简单爬虫
- 简单的java爬虫程序
- java网络爬虫简单实现
- java 简单网络爬虫实现
- 简单的java爬虫实现
- JAVA简单的爬虫代码
- java简单实现网络爬虫
- Java 简单的BFS爬虫
- Linux下替换指定的目录及其子目录下所有文件中的某些内容(3种方法)
- 银行转账存储过程类似(mysql)
- 怎样关闭frame窗口
- 2127: happiness
- 2017.09.09网易校招笔试第一题
- JAVA 简单爬虫
- kd-tree : k近邻查询和范围查询
- Android 新手引导半透明蒙层效果实现
- android studio快捷键
- echarts实现图例的图标和文字响应不同的事件
- 五种方式让你在java中读取properties文件内容不再是难题
- Android ConstraintLayout使用指南
- 深入理解Java虚拟机(二)
- CentOS7安装MySQL5.7
原创粉丝点击
热门IT博客
热门问题
老师的惩罚
人脸识别
我在镇武司摸鱼那些年
重生之率土为王
我在大康的咸鱼生活
盘龙之生命进化
天生仙种
凡人之先天五行
春回大明朝
姑娘不必设防,我是瞎子
洪荒之混元神帝
混元开天经
混元大罗金仙
混元帝经
混元修真录格格党
神雕之混元先天功
混元神戒
网游之混元法师
混元武帝
江湖风云录混元丹
混元传奇叶忆落
混元无极皇
混元太极道
混元三喜作品
洪荒之证道混元
混元道尊
混元天珠
混元
混凝
硫磺铝混悬凝胶的用途
混凝试验搅拌机
混凝搅拌机
混凝实验搅拌机
砼配合比
混凝土比例
素混凝土
中国混凝土网
混凝土人力资源网
配合比
混凝土外加剂
细石混凝土
混凝土养护
什么是混凝土
混凝土配合比
钢筋混凝土
混凝土配比表
人造大理石
混凝土简称
混凝土人才网
混凝土英文
中国混凝土人才网