python爬虫入门

来源:互联网 发布:类似日事清的软件 编辑:程序博客网 时间:2024/05/21 00:48

初学者要学会基本的爬虫

先要安装包requests

requests的安装

1.  下载requests
            打开这个网址, http://www.lfd.uci.edu/~gohlke/pythonlibs 在这个网站上面有很多 python 的第三方库文件,我们按 ctrl+f 搜索很容易找到 requests 。如下图,
点击那个 .whl 文件然后下载下来。
     2.  将 .whl文件下载下来后,将文件重命名,将后缀名从 .whl 改为 .zip ,然后解压文件,我们可以得到两个文件夹,如下图,
              我们将第一个文件夹,也就是 requests 文件夹复制到 python 的安装目录下的 lib 目录下
 3. 到这里,requests 已经安装完毕,我们可以输入 import requests 命令来试试是否安装成功,
              如上图所示,import requests 没有报错,说明 requests 已经成功安装了。
下面开始第一个网页爬虫:
1获取该页面的源代码
2 有些网页禁止使用爬虫访问源代码 所以要加个头的代码让服务器误以为浏览器访问
修改http头绕过简单的反爬虫机制
#-*—coding:utf8-*-import requestsimport re#下面三行是编码转换的功能,大家现在不用关心。import sysreload(sys)sys.setdefaultencoding("utf-8")#hea是我们自己构造的一个字典,里面保存了user-agenthea = {'User-Agent':'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36'} #加个头代码# html = requests.get('http://jp.tingroom.com/yuedu/yd300p/')html = requests.get('http://jp.tingroom.com/yuedu/yd300p/',headers = hea)html.encoding = 'utf-8' #这一行是将编码转为utf-8否则中文会显示乱码。print html.text
上诉实现了网页源代码的简单获取
下面是一个实战的文本爬虫:



原创粉丝点击