java selenium firefox （图形界面）爬取页面数据

来源：互联网发布：网络延长器是什么编辑：程序博客网时间：2024/05/21 17:21

获取网页指定内容信息，每次都通过手动打开网页进入指定页面，操作频繁却又不得不做。想着能否通过程序代替人工。

上网查了下相关资料，大致是selenium jar包对象使用（负责操作页面，获取页面内容），再这里记录一下，方便日后使用。

实现步骤：

1 安装好开发环境（firefox最新版本，只支持jdk1.8以上版本）

1.1 firefox安装：官网下载火狐浏览器，下载完后进行安装，安装地址使用系统默认

（C:\Program Files\Mozilla Firefox\firefox.exe）

1.2 java项目，使用jdk1.8进行开发。下载jdk1.8，配置好系统环境
1.3 下载selenium-firefox-driver-2.52.0.jar，引入java项目
2 编写调用网页驱动程序，进行网页点击，截图，内容获取等操作

2.1 加载火狐浏览器驱动
WebDriver driver = new FirefoxDriver(); // 默认安装地址，不需要指明路径
2.2 打开网页
driver.get("https://www.baidu.com");
2.3 获取网页内容

WebElement ele = driver.findElements(By.id("idName")); // 获取页面id值为idName的元素
String htmlStr = ele.getAttribute("innerHTML"); // 获取元素内容
2.4 关闭浏览器
driver.quit();

这套配置适用图形界面操作系统，用于本地调试开发使用。当服务器是命令行操作的系统时，推荐使用java + selenium + photomJS(无界面浏览器)

阅读全文

0 0