【详解】Python写爬虫脚本的教程

来源：互联网发布：陈风暴烈酒知乎编辑：程序博客网时间：2024/05/17 06:12

【2015-12-11更新】本文是无聊以及不成熟时候的记录，都是最最基础的东西，很多都是废话，可以不看！

【2015-12-16更新】研究出了模拟登录b站的方法，该篇虽然废话，但都是基础，看过该篇可继续看下一篇---《Python模拟登录b站并抓取信息》

因为过去了一段时间，有好多点都可以直接写，反而不知道从哪儿开始写。所以写一个从零开始的Python爬虫教程，也是自己从头再学习和复习的一个过程。

1.Python的安装

我们这里安装Python2.7，虽然据说Python3有好些地方进步了不少（比如比较让人头疼的编码问题）

具体安装过程就不赘述了，百度很好找到。

2.PyCharm的安装

这个是比较好的一个Python编程工具，强烈推荐使用。安装过程自行百度！

3.第三方模块的安装使用

Python如同Java一样，也有很多包，包里面有很多方法函数。除了自带的各种，我们可以通过安装第三方的模块来简化我们的开发过程。

在我的学习过程中，只用到了两种安装方法：

1. 针对个别模块，可以找到安装文件，点击打开后如同普通软件一样有安装向导，比如pygame就是这样的

2. 最常见的，就是解压之后一个文件夹，文件夹中有setup.py的文件。通过命令行来安装，cmd-->cd \--->f:--->cd f:/a/b/c

定位到setup.py这个文件所在的文件夹下，然后，加上setup.py install 完成安装

以上这些算是准备工作，接下来开始正式介绍如何写Python爬虫脚本。

顺序由上至下依次写：

1.顶端的声明

#!/usr/bin/python# -*- coding: utf-8 -*-

第一行：用来说明脚本语言是python，而且要用/usr/bin下面的程序（工具）python这个解释器，来解释python脚本，用来运行python脚本的。

第二行：是用来指定文件编码为utf-8。推荐使用utf-8这样可以在脚本文件中添加中文注释，比较方便的。

2.版本标识

__author__ = "$Author: Python$"__version__ = "$Revision: 1.0 $"__date__ = "$Date: 2015-10-22 15:35$"

指明，作者，版本号，以及编写日期

################################################################ 功能：模拟登录哔哩哔哩并抓取个人主页关注动态的视频信息###############################################################

表名功能

4.模拟登录

首先讲模拟登录。我们从网站上抓取数据，很多时候都需要先登录，然后进入网页。

说模拟登录，有句话是这么说的，代码其实很好写，只是分析登录的过程比较麻烦！

其实写过一次之后真的是这样的，代码的写法其实比较死，关键是每个网站的登录过程都不同。分析清楚这个过程就算是完成了大半的模拟登录工作了！

我们这里做一个功能，模拟登录bilibili并抓取当前时间正在观看的前十名，显示视频名称并显示点击数。

首先贴一个之前做的模拟登录某数据后台的代码，作为记录对照以及参考。

这个是我最初做模拟登录的第一版代码，也是最为基础的代码。

#!/usr/bin/python# -*- coding: utf-8 -*-import reimport cookielibimport urllibimport urllib2import optparsedef login():    #输入用户名密码的数据    # parse input parameters    parser = optparse.OptionParser()    parser.add_option("-u","--channelId",action="store",type="string",default='',dest="channelId",help="Your ChannelId");    parser.add_option("-p","--password",action="store",type="string",default='',dest="password",help="Your Password");    (options, args) = parser.parse_args()        #导出所有的选项变量,方便之后使用    # export all options variables, then later variables can be used    for i in dir(options):        exec(i + " = options." + i)    #处理cookie    cj = cookielib.CookieJar()    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))    urllib2.install_opener(opener)    downjoyMainUrl = "http://money.downjoy.com/connectchannel/login.jsp"    resp = urllib2.urlopen(downjoyMainUrl)       #开始模拟登录  downjoyMainLoginUrl = "http://money.downjoy.com/connectchannel/login.html"    postDict = {        'channelId'      : "1039",        'password'      : "xxx",    }    # here will automatically encode values of parameters    postData = urllib.urlencode(postDict)    req = urllib2.Request(downjoyMainLoginUrl, postData)       #编码    req.add_header('Content-Type', "application/x-www-form-urlencoded")    resp = urllib2.urlopen(req)   #加上.decode('utf-8').encode('gb2312')就能够解决中文乱码的问题    html = resp.read().decode('utf-8').encode('gb2312')    #返回了网页    print htmlif __name__=="__main__":    login()

接下来分析bilibili的登录流程，我用的是火狐浏览器，点击F12然后分析具体流程！

1. 手动登录

看一下正常通过浏览器登录需要输入什么信息。

我们发现，登录bilibili需要输入用户名、密码，以及，验证码

2.先到达登录页面

#!/usr/bin/python# -*- coding: utf-8 -*-import cookielibimport urllibimport urllib2import optparsedef login():    #输入用户名密码的数据    parser = optparse.OptionParser()    parser.add_option("-u","--channelId",action="store",type="string",default='',dest="channelId",help="Your ChannelId");    parser.add_option("-p","--password",action="store",type="string",default='',dest="password",help="Your Password");    (options, args) = parser.parse_args()    for i in dir(options):        exec(i + " = options." + i)    #处理cookie    cj = cookielib.CookieJar()    opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))    urllib2.install_opener(opener)    downjoyMainUrl = "https://account.bilibili.com/login"    resp = urllib2.urlopen(downjoyMainUrl)    html = resp.read().decode('utf-8')    print html