JAVA 简单爬虫

来源：互联网发布：导航仪软件编辑：程序博客网时间：2024/06/04 19:25

JAVA 简单爬虫DEMO

package webSpide.com;import java.security.GeneralSecurityException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Element;import org.jsoup.select.Elements;import com.gargoylesoftware.htmlunit.BrowserVersion;import com.gargoylesoftware.htmlunit.WebClient;import com.gargoylesoftware.htmlunit.html.HtmlPage;public class MyWebSpide {/** * @param args * HtmlUnit  配合 jsoup 完成异步加载的额数据 * @throws GeneralSecurityException  */public static void main(String[] args) throws GeneralSecurityException {try {String url = "http://search.jiayuan.com/v2/index.php";//String url = "https://www.toutiao.com/";WebClient webClient = new WebClient(BrowserVersion.FIREFOX_3_6);webClient.setJavaScriptEnabled(true);webClient.setCssEnabled(false);webClient.setActiveXNative(false);webClient.setThrowExceptionOnScriptError(false);webClient.setThrowExceptionOnFailingStatusCode(false);webClient.setTimeout(5000);webClient.setUseInsecureSSL(true);            webClient.getCookieManager().setCookiesEnabled(true);  HtmlPage rootPage = webClient.getPage(url);//设置一个运行JavaScript的时间webClient.waitForBackgroundJavaScript(5000);String html = rootPage.asXml();Document document = Jsoup.parse(html);// TODO Auto-generated method stub//String userAgen = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31";//    String url = "http://search.jiayuan.com/v2/index.php";//    Connection conn = Jsoup.connect(url).userAgent(userAgen).timeout(1000);//Document document =  conn.get();//System.out.println(document.html());Elements elements = document.select("div[class=hy_box]");for(int i = 0 ;i < elements.size() ; i++){Element elemtUserInfoOne = elements.get(i).select("p[class=user_info]").first();Element elemtUserInfoTwo = elements.get(i).select("p[class=zhufang]").first();String one = elemtUserInfoOne.text();String two = elemtUserInfoTwo.text();System.out.println(one+" "+two);}} catch (Exception e) {// TODO Auto-generated catch blocke.printStackTrace();}}}很久以来对爬虫有兴趣，最近从网上下了源码研读了一下爬虫，当然我现在的水平只是菜鸟级别。所写的也只是一个简单的页面。没有太过复杂的东西。

我所理解的爬虫就是分析网页 html 超文本标记语言，从中提取自己想要爬取的信息，当然其中会涉及到一系列的问题，其中最明显的就是有些数据是延迟加载出来的。上面

代码就是使用 HtmlUnit  配合 jsoup 完成异步加载的额数据

 HtmlUnit  可伪装成浏览器访问数据，通过设置加载的时候，得到加载后的页面。
  HtmlUnit  jar 包： 
     http://pan.baidu.com/s/1eSzojBW   密码 moyb
jsoup jar 包：    http://pan.baidu.com/s/1o8hwVXo   密码 u9kh
 此为我下载的爬虫 demo ，是通过 java 实现。
 https://github.com/wycm/zhihu-crawler

 
   
  阅读全文
                                                     0        0           	
					
					   java 简单爬虫
	  	   java 简单网络爬虫
	  	   Java简单爬虫示例
	  	   简单的JAVA爬虫
	  	   java 爬虫简单介绍
	  	   JAVA 简单爬虫
	  	   java 简单爬虫练习
	  	   java的简单爬虫
	  	   简单的java爬虫程序
	  	   Java 简单的BFS爬虫
	  	   java实现的简单爬虫
	  	   简单的java爬虫程序
	  	   java网络爬虫简单实现
	  	   java 简单网络爬虫实现
	  	   简单的java爬虫实现
	  	   JAVA简单的爬虫代码
	  	   java简单实现网络爬虫
	  	   Java 简单的BFS爬虫
	     		  
	  	   Linux下替换指定的目录及其子目录下所有文件中的某些内容（3种方法）
	  	   银行转账存储过程类似（mysql）
	  	   怎样关闭frame窗口
	  	   2127: happiness
	  	   2017.09.09网易校招笔试第一题
	  	   JAVA 简单爬虫
	  	   kd-tree : k近邻查询和范围查询
	  	   Android 新手引导半透明蒙层效果实现
	  	   android studio快捷键
	  	   echarts实现图例的图标和文字响应不同的事件
	  	   五种方式让你在java中读取properties文件内容不再是难题
	  	   Android ConstraintLayout使用指南
	  	   深入理解Java虚拟机（二）
	  	   CentOS7安装MySQL5.7

导航仪软件

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子洪荒之混元神帝混元开天经混元大罗金仙混元帝经混元修真录格格党神雕之混元先天功混元神戒网游之混元法师混元武帝江湖风云录混元丹混元传奇叶忆落混元无极皇混元太极道混元三喜作品洪荒之证道混元混元道尊混元天珠混元混凝硫磺铝混悬凝胶的用途混凝试验搅拌机混凝搅拌机混凝实验搅拌机砼配合比混凝土比例素混凝土中国混凝土网混凝土人力资源网配合比混凝土外加剂细石混凝土混凝土养护什么是混凝土混凝土配合比钢筋混凝土混凝土配比表人造大理石混凝土简称混凝土人才网混凝土英文中国混凝土人才网