java selenium firefox (图形界面)爬取页面数据

来源:互联网 发布:网络延长器是什么 编辑:程序博客网 时间:2024/05/21 17:21

        获取网页指定内容信息,每次都通过手动打开网页进入指定页面,操作频繁却又不得不做。想着能否通过程序代替人工。

        上网查了下相关资料,大致是selenium jar包对象使用(负责操作页面,获取页面内容),再这里记录一下,方便日后使用。

        实现步骤:

        1 安装好开发环境(firefox最新版本,只支持jdk1.8以上版本)

        1.1 firefox安装:官网下载火狐浏览器,下载完后进行安装,安装地址使用系统默认

      (C:\Program Files\Mozilla Firefox\firefox.exe

1.2 java项目,使用jdk1.8进行开发。下载jdk1.8,配置好系统环境

1.3 下载selenium-firefox-driver-2.52.0.jar,引入java项目

2 编写调用网页驱动程序,进行网页点击,截图,内容获取等操作

2.1 加载火狐浏览器驱动

      WebDriver  driver = new FirefoxDriver();  // 默认安装地址,不需要指明路径

2.2 打开网页

      driver.get("https://www.baidu.com");

        2.3 获取网页内容

      WebElement ele = driver.findElements(By.id("idName"));  // 获取页面id值为idName的元素

      String htmlStr = ele.getAttribute("innerHTML");   // 获取元素内容

2.4 关闭浏览器

      driver.quit();

      

这套配置适用图形界面操作系统,用于本地调试开发使用。当服务器是命令行操作的系统时,推荐使用java + selenium + photomJS(无界面浏览器)