第三课 Python爬虫Beautifulsoup4模块的使用
来源:互联网 发布:穿越火线开挂软件 编辑:程序博客网 时间:2024/06/05 17:12
Beautifulsoup作用:
将网页(非结构化内容)转化成结构化内容
.text取得bs对象的文字内容(去除HTML标签)
现在令一个新的字符串:
html sample ='
Hello World!
This is link1
This is link2'
将字符串转化为bs对象:
soup = BeautifulSoup(html_sample)
去除警告信息的方法:
原因:因为没有指定“剖析器”
解决:
soup = BeautifulSoup(html_sample,'html.parser')
找寻特定元素:
#使用select找出含有h1标签的元素
alink = soup.select('h1')
print(alink)
Print(alink[0])
输出的是内容,没有中括号
print(alink[0].text)
输出标签内的文字
#使用select找出含有a标签的元素
alink = soup.select('a')
print(alink)
#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法
alink = soup.select('#title')
print(alink)
#使用select找出class="link"的内容(class前面需要加上.)
alink = soup.select('.link')
print(alink)
我们看到输出多个结果,以列表的形式存储
相信这样大家就会更加清晰明白了:
循环输出:
for link in alink:
print(link)
.text的利用
获取a标签的href属性:
for link in alink:
print(link['href'])
会把href等属性包装成一个字典故很方便地取到数据!
取属性值:
html_sample2 = ' hello world! hello world2!'
soup2 = BeautifulSoup(html_sample2,'html.parser')
print(soup2.select('a')[0]['id'])
print(soup2.select('a')[1]['id'])
注:本文属于原创文章,转载请注明版权!
CSDN博客主页:http://blog.csdn.net/dyboy2017
Github开源项目:https://github.com/dyboy2017/spider
Beautifulsoup作用:
将网页(非结构化内容)转化成结构化内容
.text取得bs对象的文字内容(去除HTML标签)
现在令一个新的字符串:
html sample ='
Hello World!
This is link1
This is link2'
将字符串转化为bs对象:
soup = BeautifulSoup(html_sample)
去除警告信息的方法:
原因:因为没有指定“剖析器”
解决:
soup = BeautifulSoup(html_sample,'html.parser')
找寻特定元素:
#使用select找出含有h1标签的元素
alink = soup.select('h1')
print(alink)
Print(alink[0])
输出的是内容,没有中括号
print(alink[0].text)
输出标签内的文字
#使用select找出含有a标签的元素
alink = soup.select('a')
print(alink)
#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法
alink = soup.select('#title')
print(alink)
#使用select找出class="link"的内容(class前面需要加上.)
alink = soup.select('.link')
print(alink)
我们看到输出多个结果,以列表的形式存储
相信这样大家就会更加清晰明白了:
循环输出:
for link in alink:
print(link)
.text的利用
获取a标签的href属性:
for link in alink:
print(link['href'])
会把href等属性包装成一个字典故很方便地取到数据!
取属性值:
html_sample2 = ' hello world! hello world2!'
soup2 = BeautifulSoup(html_sample2,'html.parser')
print(soup2.select('a')[0]['id'])
print(soup2.select('a')[1]['id'])
注:本文属于原创文章,转载请注明版权!
CSDN博客主页:http://blog.csdn.net/dyboy2017
Github开源项目:https://github.com/dyboy2017/spider
- 第三课 Python爬虫Beautifulsoup4模块的使用
- 爬虫——使用BeautifulSoup4的爬虫
- python爬虫——beautifulsoup4使用学习
- Python进阶(十九)-Python3安装第三方爬虫库BeautifulSoup4
- Python:安装BeautifulSoup4模块
- python爬虫提取数据之Beautifulsoup4简单使用
- python爬虫提取数据之Beautifulsoup4简单使用
- python爬虫 BeautifulSoup4官方文档
- Python BeautifulSoup4的使用方法
- Python爬虫辅助库BeautifulSoup4用法精要
- Python爬虫之正则 & BeautifulSoup4解析HTML
- Python爬虫BeautifulSoup4系列之十
- BeautifulSoup4的初步使用
- Python的beautifulsoup4库的安装和使用
- python爬虫常用的模块
- 【爬虫】Python的Requests模块
- BeautifulSoup4的安装及使用
- BeautifulSoup4的安装及使用
- TCPdump抓包命令详解
- [Leetcode] 399. Evaluate Division 解题报告
- flex布局的兼容性写法
- scala使用implicit实现扩展已有功能
- Logstash日志插件开发总结(1)
- 第三课 Python爬虫Beautifulsoup4模块的使用
- hdu 3790 最短路径问题 dijkstra算法
- docker容器测试
- 网络图片的爬取和存储
- springMVC的注解详解
- mysql查询手机号码时隐藏其中间四位
- Test_Java_网络编程(模拟客户端向服务器上传文件)
- JavaEE开发之Spring中的多线程编程以及任务定时器详解
- 16位汇编第七讲汇编指令详解第第三讲