Python爬虫练习第一章【每60s刷新…

来源：互联网发布：电脑唱歌调音软件编辑：程序博客网时间：2024/05/06 06:22

作为一个吾爱的忠实粉，我最喜欢的就是成天刷新吾爱的精品区，看看有啥新鲜好玩的软件。

此次需要用到4个模块

首先还是先贴上源代码为敬

#coding=utf-8

import requests

import re

import time

import random

def wuai():

url="http://www.52pojie.cn/forum-16-1.html"

headeraa={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64)AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.92Safari/537.1 LBBROWSER'}

a=requests.get(url=url,headers=headeraa)

print "响应头检测"

printa.status_code

print'========================================='

print "精品软件"

pipei=re.findall('xst">(.*?)',a.content)

for xinde inpipei:

printxinde

print"一共有",len(pipei),"个精品，天哪居然有这么多！吃惊!"

for i in range(1,99999):

wuai()

time.sleep(60)

======================分析区=============================

此次需要用到4个模块

1.requests 发送网络请求

2.re 正则匹配

3.time 延时处理

4. random 循环处理

首先还是先定义一个函数吧，沃茨级说过这么一句话"这世上没什么事不是创建一个函数不能解决的，如果不能，那就创建两个。"

定义url的请求的网页链接

定义请求头（防防爬虫防护，是的，这么说有点二但是事实确实如此）

变量a即为发送包含了rul+headers的请求

a.status_code 为响应头 200为正常访问

正则匹配出需要的标题 .*？是最常用的匹配中间全段

最后逐行输出

循环99999次后停止

执行函数

延迟60s后重复执行

来看看效果图

编译成了exe 可以直接运行无需再配置python环境

附上下载地址 http://pan.baidu.com/s/1i5x83CL

0 0