BeautifulSoup处理html

来源：互联网发布：大数据时代的利弊编辑：程序博客网时间：2024/06/05 06:04

这是一个python库，用来处理html之类的文本内容
官网http://www.crummy.com/software/BeautifulSoup/#Download

这个是中文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fbs3%2Fdocumentation.zh.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=2&link_type=60&query=&uc_param_str=

这是4的版本的英文文档

http://zm6.sm-img2.com/?src=http%3A%2F%2Fwww.crummy.com%2Fsoftware%2FBeautifulSoup%2Fdocumentation.html&uid=51558658fb275070cd84ef8a462ae6b9&hid=&restype=1&from=derive&depth=3&link_type=60&uc_param_str=&query=beautifulsoup

它有两个版本。一个是BeautifulSoup，另外一个是BeautifulSoup4

安装方法官网都有。

下面是BeautifulSoup的版本，不好用

from BeautifulSoup import BeautifulSoupsoup=BeautifulSoup(html)len(soup)<del>soup.contents[0].text</del>

~~html是str格式的，长度用len来取，~~

~~html里面的文本，相当于innerText是用text来表示。~~

原版的不太好用，还是bs4版本比较好用。

from bs4 import BeautifulSoupmarkup = '<a href="http://example.com/">\nI linked to <i>example.com</i>\n</a>'soup = BeautifulSoup(markup)print soup.get_text()

0 0