BeautifulSoup中各种html解析器的比较及使用
来源:互联网 发布:怎么才能通过网络赚钱 编辑:程序博客网 时间:2024/06/05 07:46
Beautiful Soup解析器比较
·Beautiful Soup支持各种html解析器,包括python自带的标准库,还有其他的许多第三方库模块。其中一个就是lxml parser,至于lxml parser的安装,可以通过以下方法安装:
1)easy_install lxml 2)pip install lxml
另外,python对于模块的安装,可以查看博客说明,分为两种:easy_install和 pip.
另外一种纯python解析器为html5lib解析器,可以像web浏览器那样解析html页面,你可以通过下面两种方式安装html5lib:
1)easy_install html5lib 2)pip install html5lib
下面对各种html解析器的优缺点做一下对比:
- python自身带有
- 速度比较快
- 能较好兼容 (as of Python 2.7.3 and 3.2.)
- 速度很快
- 兼容性好
- The only currently supported XML parser
2)可以像web浏览器一样解析html页面
3) Creates valid HTML5
- 速度很慢
- External Python dependency
如果你想追求速度的话,建议使用lxml,如果你使用的python版本2.x是2.7.3之前的版本,或者python3.x的是3.2.2之前的版本,你很有必要安装使用html5lib或lxml使用,因为python内建的html解析器不能很好地适应于这些老版本。
1 0
- BeautifulSoup中各种html解析器的比较及使用
- Python爬虫包 BeautifulSoup 学习(十) 各种html解析器的比较及使用
- BeautifulSoup使用的html解析器比较
- C# html解析器 ,解析HTML的各种工具比较。
- 使用BeautifulSoup解析html入门
- 用Python解析HTML,BeautifulSoup使用简介
- 使用BeautifulSoup解析HTML和XML
- 使用Beautifulsoup解析本地html文件
- 好用的HTML解析库BeautifulSoup
- Html文本的解析库BeautifulSoup
- python : BeautifulSoup 网页HTML 解析器
- BeautifulSoup中的HTML解析器对比
- BeautifulSoup解析HTML(一)
- 【Python】 html解析BeautifulSoup
- Python中使用BeautifulSoup做网页解析
- python的【爬虫】:使用urllib爬取wiki文章,使用beautifulSoup解析html
- Python中第三方的用于解析HTML的库:BeautifulSoup
- [python-thirdLib] Python中第三方的用于解析HTML的库:BeautifulSoup
- shiro认证过程
- 关于ajax选中头标签功能
- 必备的Java基础知识
- CodeSmith 基础用法和例子
- error C2039: “create”: 不是“cocos2d::GLView”的成员,出错解决办法
- BeautifulSoup中各种html解析器的比较及使用
- Ubuntu下架设FTP服务器实现Windows、openwrt、ubuntu互传文件
- 关于Hadoop的一些自问自答
- hdu1869六度分离(spfa&&dijkstra)
- AngularJS——搭建PhoneCat项目的开发与测试环境
- 大学快混完了~
- Java 高效代码
- 《打造Facebook-亲历Facebook爆发的5年》读书笔记
- Android开源项目第一篇——个性化控件(View)篇