BeautifulSoup使用的html解析器比较

来源:互联网 发布:李雪健演技 知乎 编辑:程序博客网 时间:2024/06/07 15:54
解析器使用方法优势劣势Python标准库BeautifulSoup(markup, "html.parser")
  • Python的内置标准库
  • 执行速度适中
  • 文档容错能力强
  • Python 2.7.33.2.2前的版本中文档容错能力差
lxml html解析器BeautifulSoup(markup, "lxml")
  • 速度快

  • 文档容错能力强

  • 需要安装C语言库
lxml xml解析器

BeautifulSoup(markup, ["lxml", "xml"])

BeautifulSoup(markup, "xml")

  • 速度快
  • 唯一支持xml的解析器
  • 需要安装C语言库
html5libBeautifulSoup(markup, "html5lib")
  • 最好的容错性
  • 以浏览器的方式解析文档
  • 生成html5格式的文档
  • 速度慢
  • 不依赖外部扩展

0 0
原创粉丝点击