python爬虫

来源:互联网 发布:学校机房没网络 编辑:程序博客网 时间:2024/06/04 18:37

python实现简单爬虫功能





  在我们日常上网浏览网页的时候,经常会看到一些好看的图片,我们就希望把这些图片保存下载,或者用户用来做桌面壁纸,或者用来做设计的素材。


  我们最常规的做法就是通过鼠标右键,选择另存为。但有些图片鼠标右键的时候并没有另存为选项,还有办法就通过就是通过截图工具截取下来,但这样就降低图片的清晰度。好吧~!其实你很厉害的,右键查看页面源代码。


  我们可以通过python 来实现这样一个简单的爬虫功能,把我们想要的代码爬取到本地。下面就看看如何使用python来实现这样一个功能。


  
一,获取整个页面数据


 
首先我们可以先获取要下载图片的整个页面信息。


getjpg.py


复制代码
#coding=utf-8
import urllib


def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


html = getHtml("http://tieba.baidu.com/p/2738151262")


print html
复制代码
  Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:


  urllib.urlopen()方法用于打开一个URL地址。


  read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。


 


二,筛选页面中想要的数据




  Python 提供了非常强大的正则表达式,我们需要先要了解一点python 正则表达式的知识才行。


http://www.cnblogs.com/fnng/archive/2013/05/20/3089816.html


 


假如我们百度贴吧找到了几张漂亮的壁纸,通过到前段查看工具。找到了图片的地址,如:src=”http://imgsrc.baidu.com/forum......jpg”pic_ext=”jpeg”




修改代码如下:


复制代码
import re
import urllib


def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    return imglist      
   
html = getHtml("http://tieba.baidu.com/p/2460150866")
print getImg(html)
复制代码
  我们又创建了getImg()函数,用于在获取的整个页面中筛选需要的图片连接。re模块主要包含了正则表达式:


  re.compile() 可以把正则表达式编译成一个正则表达式对象.


  re.findall() 方法读取html 中包含 imgre(正则表达式)的数据。


    运行脚本将得到整个页面中包含图片的URL地址。




三,将页面筛选的数据保存到本地




把筛选的图片地址通过for循环遍历并保存到本地,代码如下:


 
#coding=utf-8
import urllib
import re


def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html


def getImg(html):
    reg = r'src="(.+?\.jpg)" pic_ext'
    imgre = re.compile(reg)
    imglist = re.findall(imgre,html)
    x = 0
    for imgurl in imglist:
        urllib.urlretrieve(imgurl,'%s.jpg' % x)
        x+=1




html = getHtml("http://tieba.baidu.com/p/2460150866")


print getImg(html)




  这里的核心是用到了urllib.urlretrieve()方法,直接将远程数据下载到本地。


  通过一个for循环对获取的图片连接进行遍历,为了使图片的文件名看上去更规范,对其进行重命名,命名规则通过x变量加1。保存的位置默认为程序的存放目录。


程序运行完成,将在目录下看到下载到本地的文件。
========

python 网络爬虫入门(一)———第一个python爬虫实例



最近两天学习了一下Python,并自己写了一个网络爬虫的例子。 
python版本: 3.5 
IDE : pycharm 5.0.4 
要用到的包可以用pycharm下载: 
File->Default Settings->Default Project->Project Interpreter 
选择python版本并点右边的加号安装想要的包 
这里写图片描述


我选择的网站是中国天气网中的苏州天气,准备抓取最近7天的天气以及最高/最低气温 
http://www.weather.com.cn/weather/101190401.shtml 
这里写图片描述


程序开头我们添加:


# coding : UTF-8


这样就能告诉解释器该py程序是utf-8编码的,源程序中可以有中文。


要引用的包:


import requests
import csv
import random
import time
import socket
import http.client
# import urllib.request
from bs4 import BeautifulSoup


requests:用来抓取网页的html源代码 
csv:将数据写入到csv文件中 
random:取随机数 
time:时间相关操作 
socket和http.client 在这里只用于异常处理 
BeautifulSoup:用来代替正则式取源码中相应标签中的内容 
urllib.request:另一种抓取网页的html源代码的方法,但是没requests方便(我一开始用的是这一种)


获取网页中的html代码:


def get_content(url , data = None):
    header={
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
    }
    timeout = random.choice(range(80, 180))
    while True:
        try:
            rep = requests.get(url,headers = header,timeout = timeout)
            rep.encoding = 'utf-8'
            # req = urllib.request.Request(url, data, header)
            # response = urllib.request.urlopen(req, timeout=timeout)
            # html1 = response.read().decode('UTF-8', errors='ignore')
            # response.close()
            break
        # except urllib.request.HTTPError as e:
        #         print( '1:', e)
        #         time.sleep(random.choice(range(5, 10)))
        #
        # except urllib.request.URLError as e:
        #     print( '2:', e)
        #     time.sleep(random.choice(range(5, 10)))
        except socket.timeout as e:
            print( '3:', e)
            time.sleep(random.choice(range(8,15)))


        except socket.error as e:
            print( '4:', e)
            time.sleep(random.choice(range(20, 60)))


        except http.client.BadStatusLine as e:
            print( '5:', e)
            time.sleep(random.choice(range(30, 80)))


        except http.client.IncompleteRead as e:
            print( '6:', e)
            time.sleep(random.choice(range(5, 15)))


    return rep.text
    # return html_text


header是requests.get的一个参数,目的是模拟浏览器访问 
header 可以使用chrome的开发者工具获得,具体方法如下: 
打开chrome,按F12,选择network 
这里写图片描述 
重新访问该网站,找到第一个网络请求,查看它的header 
这里写图片描述


timeout是设定的一个超时时间,取随机数是因为防止被网站认定为网络爬虫。 
然后通过requests.get方法获取网页的源代码、 
rep.encoding = ‘utf-8’是将源代码的编码格式改为utf-8(不该源代码中中文部分会为乱码) 
下面是一些异常处理 
返回 rep.text


获取html中我们所需要的字段: 
这里我们主要要用到BeautifulSoup 
BeautifulSoup 文档http://www.crummy.com/software/BeautifulSoup/bs4/doc/


首先还是用开发者工具查看网页源码,并找到所需字段的相应位置这里写图片描述 
找到我们需要字段都在 id = “7d”的“div”的ul中。日期在每个li中h1 中,天气状况在每个li的第一个p标签内,最高温度和最低温度在每个li的span和i标签中。 
感谢Joey_Ko指出的错误:到了傍晚,当天气温会没有最高温度,所以要多加一个判断。 
代码如下:


def get_data(html_text):
    final = []
    bs = BeautifulSoup(html_text, "html.parser")  # 创建BeautifulSoup对象
    body = bs.body # 获取body部分
    data = body.find('div', {'id': '7d'})  # 找到id为7d的div
    ul = data.find('ul')  # 获取ul部分
    li = ul.find_all('li')  # 获取所有的li


    for day in li: # 对每个li标签中的内容进行遍历
        temp = []
        date = day.find('h1').string  # 找到日期
        temp.append(date)  # 添加到temp中
        inf = day.find_all('p')  # 找到li中的所有p标签
        temp.append(inf[0].string,)  # 第一个p标签中的内容(天气状况)加到temp中
        if inf[1].find('span') is None:
            temperature_highest = None # 天气预报可能没有当天的最高气温(到了傍晚,就是这样),需要加个判断语句,来输出最低气温
        else:
            temperature_highest = inf[1].find('span').string  # 找到最高温
            temperature_highest = temperature_highest.replace('℃', '')  # 到了晚上网站会变,最高温度后面也有个℃
        temperature_lowest = inf[1].find('i').string  # 找到最低温
        temperature_lowest = temperature_lowest.replace('℃', '')  # 最低温度后面有个℃,去掉这个符号
        temp.append(temperature_highest)   # 将最高温添加到temp中
        temp.append(temperature_lowest)   #将最低温添加到temp中
        final.append(temp)   #将temp加到final中


    return final


写入文件csv: 
将数据抓取出来后我们要将他们写入文件,具体代码如下:


def write_data(data, name):
    file_name = name
    with open(file_name, 'a', errors='ignore', newline='') as f:
            f_csv = csv.writer(f)
            f_csv.writerows(data)


主函数:


if __name__ == '__main__':
    url ='http://www.weather.com.cn/weather/101190401.shtml'
    html = get_content(url)
    result = get_data(html)
    write_data(result, 'weather.csv')


然后运行一下: 
生成的weather.csv文件如下: 
这里写图片描述


总结一下,从网页上抓取内容大致分3步: 
1、模拟浏览器访问,获取html源代码 
2、通过正则匹配,获取指定标签中的内容 
3、将获取到的内容写到文件中




========


零基础写python爬虫之爬虫编写全记录



前面九篇文章从基础到编写都做了详细的介绍了,第十篇么讲究个十全十美,那么我们就来详细记录一下一个爬虫程序如何一步步编写出来的,各位看官可要看仔细了


先来说一下我们学校的网站:


http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html


查询成绩需要登录,然后显示各学科成绩,但是只显示成绩而没有绩点,也就是加权平均分。




显然这样手动计算绩点是一件非常麻烦的事情。所以我们可以用python做一个爬虫来解决这个问题。


1.决战前夜


先来准备一下工具:HttpFox插件。


这是一款http协议分析插件,分析页面请求和响应的时间、内容、以及浏览器用到的COOKIE等。




以我为例,安装在火狐上即可,效果如图:




可以非常直观的查看相应的信息。


点击start是开始检测,点击stop暂停检测,点击clear清除内容。


一般在使用之前,点击stop暂停,然后点击clear清屏,确保看到的是访问当前页面获得的数据。




2.深入敌后




下面就去山东大学的成绩查询网站,看一看在登录的时候,到底发送了那些信息。


先来到登录页面,把httpfox打开,clear之后,点击start开启检测:




输入完了个人信息,确保httpfox处于开启状态,然后点击确定提交信息,实现登录。


这个时候可以看到,httpfox检测到了三条信息:


这时点击stop键,确保捕获到的是访问该页面之后反馈的数据,以便我们做爬虫的时候模拟登陆使用。


3.庖丁解牛


乍一看我们拿到了三个数据,两个是GET的一个是POST的,但是它们到底是什么,应该怎么用,我们还一无所知。


所以,我们需要挨个查看一下捕获到的内容。


先看POST的信息:




既然是POST的信息,我们就直接看PostData即可。


可以看到一共POST两个数据,stuid和pwd。


并且从Type的Redirect to可以看出,POST完毕之后跳转到了bks_login2.loginmessage页面。


由此看出,这个数据是点击确定之后提交的表单数据。


点击cookie标签,看看cookie信息:


没错,收到了一个ACCOUNT的cookie,并且在session结束之后自动销毁。


那么提交之后收到了哪些信息呢?


我们来看看后面的两个GET数据。


先看第一个,我们点击content标签可以查看收到的内容,是不是有一种生吞活剥的快感-。-HTML源码暴露无疑了:


看来这个只是显示页面的html源码而已,点击cookie,查看cookie的相关信息:


啊哈,原来html页面的内容是发送了cookie信息之后才接受到的。


再来看看最后一个接收到的信息:


大致看了一下应该只是一个叫做style.css的css文件,对我们没有太大的作用。


4.冷静应战


既然已经知道了我们向服务器发送了什么数据,也知道了我们接收到了什么数据,基本的流程如下:


首先,我们POST学号和密码--->然后返回cookie的值然后发送cookie给服务器--->返回页面信息。获取到成绩页面的数据,用正则表达式将成绩和学分单独取出并计算加权平均数。


OK,看上去好像很简单的样纸。那下面我们就来试试看吧。


但是在实验之前,还有一个问题没有解决,就是POST的数据到底发送到了哪里?


再来看一下当初的页面:


很明显是用一个html框架来实现的,也就是说,我们在地址栏看到的地址并不是右边提交表单的地址。


那么怎样才能获得真正的地址-。-右击查看页面源代码:


嗯没错,那个name="w_right"的就是我们要的登录页面。


网站的原来的地址是:


http://jwxt.sdu.edu.cn:7777/zhxt_bks/zhxt_bks.html


所以,真正的表单提交的地址应该是:


http://jwxt.sdu.edu.cn:7777/zhxt_bks/xk_login.html


输入一看,果不其然:




靠居然是清华大学的选课系统。。。目测是我校懒得做页面了就直接借了。。结果连标题都不改一下。。。


但是这个页面依旧不是我们需要的页面,因为我们的POST数据提交到的页面,应该是表单form的ACTION中提交到的页面。


也就是说,我们需要查看源码,来知道POST数据到底发送到了哪里:


嗯,目测这个才是提交POST数据的地址。


整理到地址栏中,完整的地址应该如下:


http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login


(获取的方式很简单,在火狐浏览器中直接点击那个链接就能看到这个链接的地址了)


5.小试牛刀


接下来的任务就是:用python模拟发送一个POST的数据并取到返回的cookie值。


关于cookie的操作可以看看这篇博文:


http://www.jb51.net/article/57144.htm


我们先准备一个POST的数据,再准备一个cookie的接收,然后写出源码如下:


# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:山东大学爬虫
#   版本:0.1
#   作者:why
#   日期:2013-07-12
#   语言:Python 2.7
#   操作:输入学号和密码
#   功能:输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib  
import urllib2
import cookielib
cookie = cookielib.CookieJar()  
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#需要POST的数据#
postdata=urllib.urlencode({  
    'stuid':'201100300428',  
    'pwd':'921030'  
})
#自定义一个请求#
req = urllib2.Request(  
    url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login',  
    data = postdata
)
#访问该链接#
result = opener.open(req)
#打印返回的内容#
print result.read()   


如此这般之后,再看看运行的效果:


ok,如此这般,我们就算模拟登陆成功了。


6.偷天换日


接下来的任务就是用爬虫获取到学生的成绩。


再来看看源网站。


开启HTTPFOX之后,点击查看成绩,发现捕获到了如下的数据:


点击第一个GET的数据,查看内容可以发现Content就是获取到的成绩的内容。


而获取到的页面链接,从页面源代码中右击查看元素,可以看到点击链接之后跳转的页面(火狐浏览器只需要右击,“查看此框架”,即可):


从而可以得到查看成绩的链接如下:


http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre


7.万事俱备


现在万事俱备啦,所以只需要把链接应用到爬虫里面,看看能否查看到成绩的页面。


从httpfox可以看到,我们发送了一个cookie才能返回成绩的信息,所以我们就用python模拟一个cookie的发送,以此来请求成绩的信息:
# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:山东大学爬虫
#   版本:0.1
#   作者:why
#   日期:2013-07-12
#   语言:Python 2.7
#   操作:输入学号和密码
#   功能:输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib  
import urllib2
import cookielib
#初始化一个CookieJar来处理Cookie的信息#
cookie = cookielib.CookieJar()
#创建一个新的opener来使用我们的CookieJar#
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookie))
#需要POST的数据#
postdata=urllib.urlencode({  
    'stuid':'201100300428',  
    'pwd':'921030'  
})
#自定义一个请求#
req = urllib2.Request(  
    url = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login',  
    data = postdata
)
#访问该链接#
result = opener.open(req)
#打印返回的内容#
print result.read()
#打印cookie的值
for item in cookie:  
    print 'Cookie:Name = '+item.name  
    print 'Cookie:Value = '+item.value
    
#访问该链接#
result = opener.open('http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre')
#打印返回的内容#
print result.read()


按下F5运行即可,看看捕获到的数据吧:


既然这样就没有什么问题了吧,用正则表达式将数据稍稍处理一下,取出学分和相应的分数就可以了。


8.手到擒来


这么一大堆html源码显然是不利于我们处理的,下面要用正则表达式来抠出必须的数据。


关于正则表达式的教程可以看看这个博文:


http://www.jb51.net/article/57150.htm


我们来看看成绩的源码:




既然如此,用正则表达式就易如反掌了。


我们将代码稍稍整理一下,然后用正则来取出数据:
# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:山东大学爬虫
#   版本:0.1
#   作者:why
#   日期:2013-07-12
#   语言:Python 2.7
#   操作:输入学号和密码
#   功能:输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib  
import urllib2
import cookielib
import re
class SDU_Spider:  
    # 申明相关的属性  
    def __init__(self):    
        self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login'   # 登录的url
        self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url
        self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息
        self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'})     # POST的数据
        self.weights = []   #存储权重,也就是学分
        self.points = []    #存储分数,也就是成绩
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))
    def sdu_init(self):
        # 初始化链接并且获取cookie
        myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求
        result = self.opener.open(myRequest)            # 访问登录页面,获取到必须的cookie的值
        result = self.opener.open(self.resultUrl)       # 访问成绩页面,获得成绩的数据
        # 打印返回的内容
        # print result.read()
        self.deal_data(result.read().decode('gbk'))
        self.print_data(self.weights);
        self.print_data(self.points);
    # 将内容从页面代码中抠出来  
    def deal_data(self,myPage):  
        myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S)     #获取到学分
        for item in myItems:
            self.weights.append(item[0].encode('gbk'))
            self.points.append(item[1].encode('gbk'))
            
    # 将内容从页面代码中抠出来
    def print_data(self,items):  
        for item in items:  
            print item
#调用  
mySpider = SDU_Spider()  
mySpider.sdu_init()  


水平有限,,正则是有点丑,。运行的效果如图:


ok,接下来的只是数据的处理问题了。。


9.凯旋而归


完整的代码如下,至此一个完整的爬虫项目便完工了。
# -*- coding: utf-8 -*-
#---------------------------------------
#   程序:山东大学爬虫
#   版本:0.1
#   作者:why
#   日期:2013-07-12
#   语言:Python 2.7
#   操作:输入学号和密码
#   功能:输出成绩的加权平均值也就是绩点
#---------------------------------------
import urllib  
import urllib2
import cookielib
import re
import string
class SDU_Spider:  
    # 申明相关的属性  
    def __init__(self):    
        self.loginUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bks_login2.login'   # 登录的url
        self.resultUrl = 'http://jwxt.sdu.edu.cn:7777/pls/wwwbks/bkscjcx.curscopre' # 显示成绩的url
        self.cookieJar = cookielib.CookieJar()                                      # 初始化一个CookieJar来处理Cookie的信息
        self.postdata=urllib.urlencode({'stuid':'201100300428','pwd':'921030'})     # POST的数据
        self.weights = []   #存储权重,也就是学分
        self.points = []    #存储分数,也就是成绩
        self.opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(self.cookieJar))
    def sdu_init(self):
        # 初始化链接并且获取cookie
        myRequest = urllib2.Request(url = self.loginUrl,data = self.postdata)   # 自定义一个请求
        result = self.opener.open(myRequest)            # 访问登录页面,获取到必须的cookie的值
        result = self.opener.open(self.resultUrl)       # 访问成绩页面,获得成绩的数据
        # 打印返回的内容
        # print result.read()
        self.deal_data(result.read().decode('gbk'))
        self.calculate_date();
    # 将内容从页面代码中抠出来  
    def deal_data(self,myPage):  
        myItems = re.findall('<TR>.*?<p.*?<p.*?<p.*?<p.*?<p.*?>(.*?)</p>.*?<p.*?<p.*?>(.*?)</p>.*?</TR>',myPage,re.S)     #获取到学分
        for item in myItems:
            self.weights.append(item[0].encode('gbk'))
            self.points.append(item[1].encode('gbk'))
    #计算绩点,如果成绩还没出来,或者成绩是优秀良好,就不运算该成绩
    def calculate_date(self):
        point = 0.0
        weight = 0.0
        for i in range(len(self.points)):
            if(self.points[i].isdigit()):
                point += string.atof(self.points[i])*string.atof(self.weights[i])
                weight += string.atof(self.weights[i])
        print point/weight
#调用  
mySpider = SDU_Spider()  
mySpider.sdu_init()  


以上便是此爬虫诞生的全部过程的详细记录了,
========
http://python.jobbole.com/81359/
Python爬虫实战(4):抓取淘宝MM照片


http://www.xker.com/page/e2014/1108/142377.html
零基础写python爬虫之使用Scrapy框架编写爬虫
1 0
原创粉丝点击