Python网页抓取之Beautiful Soup
来源:互联网 发布:mac 股票交易 编辑:程序博客网 时间:2024/05/13 21:00
BeautifulSoup是一个非常流行的模块该模块能够在解析一些的引号闭合标签的时候,对其进行排版。
例如:
from bs4 import BeautifulSoupbroken_html = '<ul class=country><li>Area</li><li>population</li>'soup = BeautifulSoup(broken_html,'html.parser')fixed_html = soup.prettify()print fixed_html
结果是:
<ul class="country"> <li> Area </li> <li> population </li></ul>
接下来我们通过find()和find_all()方法来
来定位我们的元素
ul = soup.find('ul',attrs = {'class':'country'})print ul.find('li')
结果
<li>Area</li>
而find_all()方法则会解析出所有还有li的标签,组成一个元组
print ul.find_all('li')
结果:
[<li>Area</li>, <li>population</li>]
0 0
- Python网页抓取之Beautiful Soup
- Python网页抓取工具Beautiful Soup面面观!
- python Beautiful Soup分析网页
- Python利用Beautiful Soup抓取新闻标题
- python Beautiful soup网页解析-星座网
- Python爬虫实战一之使用Beautiful Soup抓取‘谣言百科’的分类内容
- Python爬虫实战一之使用Beautiful Soup抓取百度招聘信息并存储excel文件
- Python爬虫之抓取数据——正则表达式/Beautiful Soup/Lxml
- Beautiful Soup 提取网页
- Python 之 Beautiful Soup 4文档
- Python爬虫系列之----Scrapy(五)网页提取的三种方式(正则,Beautiful Soup,Lxml)
- python Beautiful Soup文档
- Python Beautiful Soup简介
- Python Beautiful Soup Example
- [Python]安装Beautiful Soup
- python 安装 Beautiful Soup
- Python模块Beautiful Soup
- Beautiful Soup 4解析网页
- Centos7下安装配置Redis3.0.6
- 运维基础——Zabbix 添加磁盘空间监控
- jQuery事件使用
- IntelliJ IDEA创建JavaWeb工程及配置Tomcat部署
- matlab 画三维图
- Python网页抓取之Beautiful Soup
- 程序设计模式(三) C++ Builder模式
- STM32烧录程序之后外设不工作
- 在win8系统上通过pip为python2.7.13安装scipy包
- tomcat热启动
- mapreduce 的工作机制
- react组件间通信
- 002-Docker for Windows
- Python数据分析_Pandas