Python 入门第一天:安装Beautifulsoup4遇到的问题

来源:互联网 发布:快排阀能在淘宝上卖啊 编辑:程序博客网 时间:2024/06/06 02:32

对于Beautifulsoup4,官方的解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 如果我们想进行爬虫开发的话,那么这个库肯定是必不可少的。

下面是用终端进行安装:

注意这里需要区分以下你的python版本,,如果你使用的是Mac自带的python,那么你需要这样写:

pip install beautifulsoup4

如果你安装了新版的python,我的电脑装的python版本是3.6.3,所以我需要这样写

pip3 install beautifulsoup4

等待安装完成…
完成之后,在工程中可以使用

from bs4 import BeautifulSoup

进行导入模块,如果运行不报错,那么你就成功了。如果报错的话,类似这个 ‘‘ import name HTMLParseError’’,这个代表着你的python版本和beautifulsoup4的支持版本不符,所以你需要更新一下你的beautifulsoup4

还是老样子,根据版本号:

pip3 install --upgrade beautifulsoup4

更新完成之后,运行没问题的话,恭喜你就可以使用bs4了,如果还是报错(我的今天就遇到了这样的问题),你就需要进入文件夹瞅一瞅了,打开finder,前往文件夹:

/usr/local/lib/python3.6/site-packages

在这个文件夹里找一找,看有没有两个beautifuls4的文件,如果有,删掉那个旧版本的,我的是不知道什么原因,site-packages里多了个 ‘‘beautifulsoup4-4.1.0-py3.6.egg-info’’文件,删除掉就好了。

beautifulsoup4安装完成之后,还需要一个叫 lxml 的依赖库:

pip3 install lxml

安装完成之后就大功告成了。