BeautifulSoup处理html

来源:互联网 发布:大数据时代的利弊 编辑:程序博客网 时间:2024/06/05 06:04

这是一个python库,用来处理html之类的文本内容
官网http://www.crummy.com/software/BeautifulSoup/#Download 


这个是中文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fbs3%2Fdocumentation.zh.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=2&link_type=60&query=&uc_param_str=


这是4的版本的英文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fdocumentation.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=3&link_type=60&uc_param_str=&query=beautifulsoup

它有两个版本。一个是BeautifulSoup,另外一个是BeautifulSoup4

安装方法官网都有。

下面是BeautifulSoup的版本,不好用

from BeautifulSoup import BeautifulSoupsoup=BeautifulSoup(html)len(soup)<del>soup.contents[0].text</del>

html是str格式的,长度用len来取,

html里面的文本,相当于innerText是用text来表示。

原版的不太好用,还是bs4版本比较好用。


from bs4 import BeautifulSoupmarkup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'soup = BeautifulSoup(markup)print soup.get_text()



0 0