BeautifulSoup总结

来源:互联网 发布:centos libgcc s.so 编辑:程序博客网 时间:2024/06/10 02:55

主要方法是

findAll('table') 得到所有的table  

find('table') 得到一个table

get('class') 是指内部属性

parent 是指其父标签
next和nextSibling是有区别的。nextSibling是同级的下一个,而next就是下一个元素,可能实在本元素中包含的。

.string 得到是 一个标签只有一个子节点且是字符串类型,这个自己可以这样访问 tag.string,等同于tag.contents[0]的形式

.contents  包含所有子标签,以及字符。作为列表,例如

pTag.contents# [u'This is paragraph ', <b>one</b>, u'.']


参考:

中文文档 http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

http://www.crummy.com/software/BeautifulSoup/bs4/doc/

原创粉丝点击