Java+Selenium3方法篇18-获取当前页的源码

来源:互联网 发布:广州凯申物流 知乎 编辑:程序博客网 时间:2024/05/01 10:14

       本篇介绍webdriver中获取当前页面的源码,driver.getPageSource()的功能就类似,你打开一个网页,然后右键,选择查看源码一样效果。这个获取网页的源码,在网络爬虫中百分百是需要用到的。先来了解下,我们通过获取百度新闻首页的源码,打印到eclipse,看看效果。

相关脚本代码如下:

package lessons;import java.util.concurrent.TimeUnit;import org.openqa.selenium.By;import org.openqa.selenium.WebDriver;import org.openqa.selenium.WebElement;import org.openqa.selenium.chrome.ChromeDriver;public class ElementOpration {public static void main(String[] args) throws Exception {                  System.setProperty("webdriver.chrome.driver", ".\\Tools\\chromedriver.exe");                     WebDriver driver = new ChromeDriver();               driver.manage().window().maximize();                 driver.manage().timeouts().implicitlyWait(5, TimeUnit.SECONDS);                  driver.get("https://www.baidu.com");                 Thread.sleep(1000);               WebElement news_link = driver.findElement(By.linkText("新闻"));        news_link.click();        Thread.sleep(1000);               // 打印当前页面的源码        System.out.println(driver.getPageSource());            }  }
       获取当前页源码就介绍到这里,至于如何拿到源码,如何去查找我们需要的信息,这里就不介绍。因为需要一点前端知识,和正则匹配的内容。

原创粉丝点击