Python网页抓取之Beautiful Soup

来源：互联网发布：mac 股票交易编辑：程序博客网时间：2024/05/13 21:00

BeautifulSoup是一个非常流行的模块该模块能够在解析一些的引号闭合标签的时候，对其进行排版。
例如：

from bs4 import BeautifulSoupbroken_html = '<ul class=country><li>Area</li><li>population</li>'soup = BeautifulSoup(broken_html,'html.parser')fixed_html = soup.prettify()print fixed_html

结果是：

<ul class="country"> <li>  Area </li> <li>  population </li></ul>

接下来我们通过find()和find_all()方法来
来定位我们的元素

ul = soup.find('ul',attrs = {'class':'country'})print ul.find('li')

结果

<li>Area</li>

而find_all()方法则会解析出所有还有li的标签,组成一个元组

print  ul.find_all('li')

结果：

[<li>Area</li>, <li>population</li>]

0 0

Python网页抓取之Beautiful Soup
Python网页抓取工具Beautiful Soup面面观！
python Beautiful Soup分析网页
Python利用Beautiful Soup抓取新闻标题
python Beautiful soup网页解析-星座网
Python爬虫实战一之使用Beautiful Soup抓取‘谣言百科’的分类内容
Python爬虫实战一之使用Beautiful Soup抓取百度招聘信息并存储excel文件
Python爬虫之抓取数据——正则表达式/Beautiful Soup/Lxml
Beautiful Soup 提取网页
Python 之 Beautiful Soup 4文档
Python爬虫系列之----Scrapy(五)网页提取的三种方式(正则,Beautiful Soup,Lxml)
python Beautiful Soup文档
Python Beautiful Soup简介
Python Beautiful Soup Example
[Python]安装Beautiful Soup
python 安装 Beautiful Soup
Python模块Beautiful Soup
Beautiful Soup 4解析网页
Centos7下安装配置Redis3.0.6
运维基础——Zabbix 添加磁盘空间监控
jQuery事件使用
IntelliJ IDEA创建JavaWeb工程及配置Tomcat部署
matlab 画三维图
Python网页抓取之Beautiful Soup
程序设计模式(三) C++ Builder模式
STM32烧录程序之后外设不工作
在win8系统上通过pip为python2.7.13安装scipy包
tomcat热启动
mapreduce 的工作机制
react组件间通信
002-Docker for Windows
Python数据分析_Pandas