爬取一个本地网页

来源:互联网 发布:美萍软件怎么样 编辑:程序博客网 时间:2024/06/05 20:40

Python爬取第一个本地网页

本节内容如下:

  • 如何使用pyhton的第三库BeautifulSoup来解析一个网页

第一步 使用BeautifulSoup去解析网页

soup = BeautifulSoup(html,‘lxml’)

第二步 描述要爬取的东西在哪

变量名= soup.select('????')

第三步 从标签中获取你需要的信息

将获取到的信息装在一个容器中,方便我们去查询 

-------------------------------------------------------------------------------------------------------------------

开始解析

copy select 的结果:
body > div.main-content > ul > li:nth-child(1) > img
copy XPath的结果:
/html/body/div[2]/ul/li[1]/img
通过Xpath可以认识到一个网页标签是如何进行嵌套的

不同的节点间有不同的关系:






select和Xpath的异同:
相同点:都是顺着从左向右去写