小白学爬虫--2

来源:互联网 发布:mac ppt 动画顺序 编辑:程序博客网 时间:2024/06/16 23:46

之前学了一点bs4库的使用和html的基础知识,今天没有系统性的学习一点爬虫知识,只是在努力爬取某一个网页。

在这个过程中,接触到了selenium包的Webdriver。今天用这个东西主要是为了获取网页的html,但是在爬取含有

frame框架的网页上,简单的webdriver不起作用。

但是对于一般的html爬取还是很有效的


至此,爬虫的第一步算是结束----get要爬取网页的html

接下来是可以用bs4的BeautifulSoup进行处理,但是有时候我们需要先提取特定的标签元素,

因此可以用webdriver中各种查找元素的方法进行处理。


这部分明天学习。








原创粉丝点击