python 爬虫动态加载网站

来源：互联网发布：java 线程死锁编辑：程序博客网时间：2024/06/06 02:11

找到网页动态加载的url变化规律，比如此次试验中是http://www.wjdiankong.cn/page/num/ ； num从1自增

#!/user/bin/env python
#-*- coding: utf-8 -*-

import re
import urllib2
import urllib
import cookielib
import requests
import sys

URL = "http://www.wjdiankong.cn/page/{}/"
reg = '<a target="_blank" href="http://www.wjdiankong.cn/.*/" title=".*">'

def geturl():
input = open(r"E:\url.txt", 'w+')
for i in range(1,29):
url = URL.format(i)
print url
r = requests.get(url)
data = r.text
#print data

# 利用正则查找所有连接
regex = re.compile(reg,flags=re.MULTILINE)
link_list = regex.findall(data)
for url in link_list:
url_article = url[24:].split('''"''')[1]
data = urllib.unquote(str(url_article))
print data
input.write(data)
input.write("\n\n")

geturl()

注意的点：

urllib.unquote（）乱码的原因是:unquote方法接收参数类型是unidoe，返回的值类型也是unicode

解决办法将参数的值转换成str类型

阅读全文

0 0