Python爬虫练习第一章【每60s刷新…

来源:互联网 发布:电脑唱歌调音软件 编辑:程序博客网 时间:2024/05/06 06:22
作为一个吾爱的忠实粉,我最喜欢的就是成天刷新吾爱的精品区,看看有啥新鲜好玩的软件。
此次需要用到4个模块
首先还是先贴上源代码为敬

#coding=utf-8
import requests
import re
import time
import random
def wuai():
   url="http://www.52pojie.cn/forum-16-1.html"
   headeraa={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64)AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92Safari/537.1 LBBROWSER'}
   a=requests.get(url=url,headers=headeraa)
    print "响应头检测"
    printa.status_code
    print'========================================='
    print "精品软件"
   pipei=re.findall('xst">(.*?)',a.content)
    for xinde inpipei:
      printxinde
    print"一共有",len(pipei),"个精品,天哪居然有这么多!吃惊!"
for i in range(1,99999):
    wuai()
    time.sleep(60)
======================分析区=============================
此次需要用到4个模块
1.requests  发送网络请求
2.re            正则匹配
3.time        延时处理
4. random  循环处理

首先还是先定义一个函数吧,沃茨级说过这么一句话"这世上没什么事不是创建一个函数不能解决的,如果不能,那就创建两个。"

定义url的请求的网页链接

定义请求头(防防爬虫防护,是的,这么说有点二但是事实确实如此)

变量a即为发送包含了rul+headers的请求

a.status_code 为响应头 200为正常访问

正则匹配出需要的标题 .*?是最常用的匹配中间全段

最后逐行输出

循环99999次后停止

执行函数

延迟60s后重复执行

来看看效果图

Python爬虫练习第一章【每60s刷新抓取一次吾爱论坛精品标题】




编译成了exe 可以直接运行 无需再配置python环境
附上下载地址 http://pan.baidu.com/s/1i5x83CL

0 0