python2.7 beautifulsoup学习使用
来源:互联网 发布:淘宝拍卖房产会可信吗 编辑:程序博客网 时间:2024/05/22 06:17
学习使用python的beautiful soup库,大大方便了网络爬虫对于HTML文件的解析,beautiful soup将HTML拆解成对象处理,将HTML转换成字典和数组,相比利用正则表达式解析的爬虫,省略了学习正则表达式的高成本
说人话就是正则表达式太难了,博主学不会!
本篇只介绍Beautiful Soup的使用,不涉及安装、配置。
Beautiful Soup的使用方法如下:
1、创建Beautiful Soup对象
首先导入bs4库,创建Beautiful Soup对象
1
2
from bs4 import BeautifulSoup
#导入BeautifulSoup模块
soup = BeautifulSoup(html.decode(
"utf-8"
))
#创建BeautifulSoup对
2、格式化输出
官方文档实例
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
from BeautifulSoup import BeautifulSoup
import re
doc = [
'<title>Page title</title>'
,
'<p id="firstpara" align="center">This is paragraph <b>one</b>.'
,
'</p><p id="secondpara" align="blah">This is paragraph <b>two</b>.'
]
soup = BeautifulSoup(
''
.join(doc))
print soup.prettify()
# <title>
# Page title
# </title>
# </p><p id="firstpara" align="center">
# This is paragraph
# <b>
# one
# </b>
# .
# </p>
# <p id="secondpara" align="blah">
# This is paragraph
# <b>
# two
# </b>
# .
# </p>
后面再补充。。。。
0 0
- python2.7 beautifulsoup学习使用
- Python2.7 安装 bs4( beautifulsoup)
- python2.7 beautifulsoup安装下载
- Python2.7 + beautifulSoup 4.4.1 安装配置
- BeautifulSoup学习笔记7
- BeautifulSoup的使用学习笔记
- beautifulsoup 学习
- BeautifulSoup学习
- windows和linux下使用python2.7 urllib.urlopen+beautifulsoup打开12306网站订票页面表现不同,前者报错ssl认证失败,后者成功
- 【问题】使用BeautifulSoup解析在python2和python3下表现不一样?
- 使用beautifulsoup
- BeautifulSoup使用
- BeautifulSoup使用
- BeautifulSoup使用
- Python2.7 urlparse学习
- Python2.7 urlparse学习
- Python2.7 urlparse学习
- Python2.7 urlparse学习
- 工作岗位汇总
- mongodb笔记
- python2.7 beautifulsoup安装下载
- nignx cache 部分参数说明
- express源码阅读
- python2.7 beautifulsoup学习使用
- 求二叉树第K层的节点个数
- nginx缓存优先级
- 如何选择开发板和保护开发板
- JAVA基础学习(一)--JAVA入门和JDK的安装与配置
- jquery 中 live事件委派 与 bind事件绑定
- POJ 2449 Remmarguts' Date (A*搜索求K短路)
- muduo网络库源码学习————线程池实现
- 有关findviewbyid 一个错误用法