Java+Selenium3方法篇18-获取当前页的源码

来源：互联网发布：广州凯申物流知乎编辑：程序博客网时间：2024/05/01 10:14

本篇介绍webdriver中获取当前页面的源码，driver.getPageSource(）的功能就类似，你打开一个网页，然后右键，选择查看源码一样效果。这个获取网页的源码，在网络爬虫中百分百是需要用到的。先来了解下，我们通过获取百度新闻首页的源码，打印到eclipse，看看效果。

相关脚本代码如下：

package lessons;import java.util.concurrent.TimeUnit;import org.openqa.selenium.By;import org.openqa.selenium.WebDriver;import org.openqa.selenium.WebElement;import org.openqa.selenium.chrome.ChromeDriver;public class ElementOpration {public static void main(String[] args) throws Exception {                  System.setProperty("webdriver.chrome.driver", ".\\Tools\\chromedriver.exe");                     WebDriver driver = new ChromeDriver();               driver.manage().window().maximize();                 driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);                  driver.get("https://www.baidu.com");                 Thread.sleep(1000);               WebElement news_link = driver.findElement(By.linkText("新闻"));        news_link.click();        Thread.sleep(1000);               // 打印当前页面的源码        System.out.println(driver.getPageSource());            }  }

获取当前页源码就介绍到这里，至于如何拿到源码，如何去查找我们需要的信息，这里就不介绍。因为需要一点前端知识，和正则匹配的内容。

阅读全文

0 0