Python爬虫常用模块,BeautifulSoup笔记
来源:互联网 发布:c#二维数组初始化 编辑:程序博客网 时间:2024/06/07 06:30
import urllib import urllib.request as requestimport refrom bs4 import *#url = 'http://zh.house.qq.com/'url = 'http://www.0756fang.com/'html = request.urlopen(url).read().decode('utf-8')soup = BeautifulSoup(html,"html.parser")print(soup.head.meta['content'])#输出所得标签的‘’属性值print(soup.span.string);print(soup.span.text)#两个效果一样,返回标签的text#name属性是‘’的标签的<ResultSet>类,是一个由<Tag>组成的listprint(soup.find_all(attrs={'name':'keywords'}))print(soup.find_all(class_='site_name'))#class属性是‘’的<Tag>的list,即<ResultSet>print(soup.find_all(class_='site_name')[0])#这是一个<Tag>print(soup.find(attrs={'name':'keywords'}))#name属性是‘’的标签的<Tag>类print(soup.find('meta',attrs={'name':'keywords'}))#name属性是‘’的meta标签的<Tag>类print(soup.find('meta',attrs={'name':'keywords'})['content'])#<Tag类>可直接查属性值#配合re模块使用,可以忽略大小写#如下面例子,可以找到name属性为keywords,KEYWORDS,KeyWORds等的meta标签print(soup.find('meta',attrs={'name':re.compile('keywords',re.IGNORECASE)}))'''-------------------------------------------------------------------------''''''----------------------------修改BeautifulSoup—----------------------------''''''-------------------------------------------------------------------------'''soup.find(attrs={'name':'keywords'}).extract#调用这个方法,可以删除这一个标签soup.title.name='ppp'#可以把Tag的名字<title>改成<ppp>#可以使用append(),insert(),insert_after()或者insert_before()等方法来对新标签进行插入。Tag1 = a.new_tag('li',class_='123')'''创造一个Tag'''a.title.append(Tag1)#把Tag1添加为name是title的Tag的最后一个【子节点】,没有换行 #.insert(0,Tag1)----这里用insert的话,第一个参数可以控制所添加【子节点】的先后位置 #.insert_after(Tag1)---和insert_before一样,添加为Title的【兄弟节点】soup.head.meta['content']='随便输入,可以添加(或更改)这个Tag的content属性(值)'del soup.head.meta['content']#这个语法可以直接删除这个Tag的content属性soup.li.clear#调用方法会清除所有li标签的textsoup.title.string='用这个方法可以修改title标签的内容'#慎用,只用于最子孙最小的节点,用于父节点会清空子节点soup.div.append('放在div子节点位置的 最后append最后,是标签内容')soup.div.insert(0,'放在div子节点位置的 最前insert【0】最前,是标签内容'')
这是我以前的BS4笔记,交流请联系 QQ 328123440
0 0
- Python爬虫常用模块,BeautifulSoup笔记
- Python学习笔记:BeautifulSoup模块
- Python爬虫库学习笔记-BeautifulSoup
- python 网络爬虫学习笔记之beautifulsoup
- 爬虫----BeautifulSoup 模块
- python库学习笔记——爬虫常用的BeautifulSoup的介绍
- Python学习笔记--BeautifulSoup、urllib、threading模块
- 使用requests+beautifulsoup模块实现python网络爬虫功能
- Python爬虫----网页解析器和BeautifulSoup第三方模块
- 使用requests+beautifulsoup模块实现python网络爬虫功能
- python爬虫之BeautifulSoup
- python爬虫之-BeautifulSoup
- python beautifulsoup 爬虫学习
- python爬虫之BeautifulSoup
- python-爬虫-beautifulsoup
- python爬虫爬取斗图网BeautifulSoup
- python爬虫--BeautifulSoup
- python爬虫(BeautifulSoup)
- 7 rules of Effortless English System Secret (Ⅶ)
- 深度学习实战——caffe windows 下训练自己的网络模型
- 【Android】Sensor框架Framework层解读
- Spark机器学习
- 指针与数组(二)——字符串认知
- Python爬虫常用模块,BeautifulSoup笔记
- PAT乙级.1026. 程序运行时间(15)
- InstallShield Limited Edition for Visual Studio 2013 图文教程(教你如何打包.NET程序)
- Java冒泡排序算法
- vim
- WebRTC Data Channels RFC
- Leetcode 100 : same Tree
- HDU-4339 Query(树状数组+二分)
- Linkedin工程师是如何优化他们的Java代码的