python 爬虫动态加载网站
来源:互联网 发布:java 线程死锁 编辑:程序博客网 时间:2024/06/06 02:11
找到网页动态加载的url变化规律,比如此次试验中是http://www.wjdiankong.cn/page/num/ ; num从1自增
#!/user/bin/env python
#-*- coding: utf-8 -*-
import re
import urllib2
import urllib
import cookielib
import requests
import sys
URL = "http://www.wjdiankong.cn/page/{}/"
reg = '<a target="_blank" href="http://www.wjdiankong.cn/.*/" title=".*">'
def geturl():
input = open(r"E:\url.txt", 'w+')
for i in range(1,29):
url = URL.format(i)
print url
r = requests.get(url)
data = r.text
#print data
# 利用正则查找所有连接
regex = re.compile(reg,flags=re.MULTILINE)
link_list = regex.findall(data)
for url in link_list:
url_article = url[24:].split('''"''')[1]
data = urllib.unquote(str(url_article))
print data
input.write(data)
input.write("\n\n")
geturl()
注意的点:
urllib.unquote()乱码的原因是:unquote方法接收参数类型是unidoe,返回的值类型也是unicode
解决办法将参数的值转换成str类型
- python 爬虫动态加载网站
- Python爬虫——利用PhantomJS下载动态加载图片
- python 爬虫网站
- python爬虫网站mark
- Python爬虫爬取美剧网站
- python 爬虫视频网站
- python爬虫网站图片
- Python高级爬虫(四):动态加载页面的解决方案与爬虫代理
- Python高级爬虫之动态加载页面的解决方案与爬虫代理
- Python动态爬虫
- python 爬虫下载网站图片
- Python爬虫爬取美剧网站信息
- python 爬虫 | 检查网站情况
- python 爬虫某网站图片
- python 爬虫视频网站(二)
- 【Python爬虫】了解网站信息
- selenium自动化测试工具开发python爬虫-动态加载页面数据获取
- 【python爬虫】动态加载页面的解决办法(以ins为例)
- Echart的angularjs封装
- 如何在windows下安装配置pyspark notebook
- 更改Visual Studio 的主题设置
- 观察者模式【Observer Pattern】
- 水果消除(DPS)
- python 爬虫动态加载网站
- 第2章 在 HTML 中使用 JavaScript <script>元素
- 自定义MVC
- 51单片机之定时器
- json字符串与java对象互转
- leetcode463. Island Perimeter
- asm学习
- Windbg 内核态调试用户态程序
- [一天几个linux命令] rm