Python 爬虫入门(一) Python和常用库的安装

来源:互联网 发布:mac 查看git安装目录 编辑:程序博客网 时间:2024/05/02 01:56

# Python 爬虫入门(一)Python和常用库的安装

最近由于参加数据挖掘比赛,正好在研究爬虫,希望通过写博客来记录自己和团队一起学习爬虫的点点滴滴。

Python 安装

  1. 前言

    Python几乎可以在任何平台下运行,如我们所熟悉的:Windows/Unix/Linux/Macintosh。由于我的是Windows 10,因此这里只介绍在Windows操作系统中安装Python。

  2. 获取python安装包

    首先,我们需要访问Python的官方网站
    https://www.python.org/

    这里写图片描述

    点击其中的downloads

    有两个版本的Python可以下载,分别是Python2x和Python3x

    Short version: Python 2.x is legacy, Python 3.x is the present and future of the language

    官网中这样说道,Python2x是经典的,而3x是目前的,也是未来的。

    如果不是需要使用到仅仅只支持Python2x的某些库,我建议下载Python3x。

  3. 安装
    下载完成之后呢,我们进行安装。

    为了后续过程简单,我们使用默认的路径进行安装,并添加路径到环境变量。

    这里写图片描述

    等待安装完毕

    这里写图片描述

    这里写图片描述

    安装完成。

  4. 安装非标准Python库

    Python标准库中,用于网页数据采集的有urllib库,同样,有很多优秀的开源库,像BeautifulSoup库、Requests库等。
    接下来就介绍一些开源库的安装方法。

    Python库的安装可以通过下载源代码执行安装,也可以通过包管理器pip来安装。
    这里主要介绍通过pip包管理器的安装方法。

    • 安装BeautifulSoup库
      首先,我们选中开始菜单单击鼠标右键,打开命令提示符(管理员),然后输入以下命令:

      pip install bs4

      其中pip可以为pip、pip3、pip3.6等,根据包管理器的版本不同来选择,一般来说,使用pip即可,除非你电脑上装有多个不同版本的pip。

      如果你在安装Python的时候没有添加路径到环境变量或者环境变量丢失,你可能会遇到cmd提示你pip不是一个可执行程序。
      这个时候,你就需要将cmd路径指向pip所在目录。

      例如下图:
      这里写图片描述

      首先你需要将路径转移到pip目录,我的电脑上,pip所在文件路径是:
      C:\Users\Thinkpad\AppData\Local\Programs\Python\Python36-32\Scripts

      因此,你需要在命令行中键入
      cd C:\Users\Thinkpad\AppData\Local\Programs\Python\Python36-32\Scripts

      然后即可使用pip安装各种类库了。

      另外,此处要说明的是,bs4是BeautifulSoup的最新版本的BeautifulSoup4版本,因此也叫bs4。

最后,有关bs4的相关文档,可以查看
http://beautifulsoup.readthedocs.io/zh_CN/latest/#id8

1 0
原创粉丝点击