Python网页抓取之Beautiful Soup

来源:互联网 发布:mac 股票交易 编辑:程序博客网 时间:2024/05/13 21:00

BeautifulSoup是一个非常流行的模块该模块能够在解析一些的引号闭合标签的时候,对其进行排版。
例如:

from bs4 import BeautifulSoupbroken_html = '<ul class=country><li>Area</li><li>population</li>'soup = BeautifulSoup(broken_html,'html.parser')fixed_html = soup.prettify()print fixed_html

结果是:

<ul class="country"> <li>  Area </li> <li>  population </li></ul>

接下来我们通过find()和find_all()方法来
来定位我们的元素

ul = soup.find('ul',attrs = {'class':'country'})print ul.find('li')

结果

<li>Area</li>

而find_all()方法则会解析出所有还有li的标签,组成一个元组

print  ul.find_all('li')

结果:

[<li>Area</li>, <li>population</li>]
0 0
原创粉丝点击