最简单的Python网页爬虫
来源:互联网 发布:连接蓝牙app源码 编辑:程序博客网 时间:2024/06/06 00:42
下面是用Python3写的可以抓取任意网页的代码,经过测试,马上可用。这里的示例抓取的是新浪实时股票数据。
#-*- coding: utf-8 -*-任意网页下载器Created on Wed Dec 21 15:08:43 2016@author: stanleymao"""#coding=utf-8#不要用url2,太麻烦了。用requests即可抓取网页!import requests as rqdef geturl(url, filename): res=rq.get(url) #抓取网页 if res.status_code != rq.codes.ok: raise Exception("url open error!") return '' #写入本地文件,同名文件会被覆盖 f = open(filename, 'wb') # 必须写入二进制数据,而不是str,为了保护文本中的utf-8编码不被转换为GB3212! for chunk in res.iter_content(100000): f.write(chunk) f.close return res.text if __name__=='__main__': #配置下行的url和文件名,即可抓不同的url text= geturl('http://hq.sinajs.cn/list=sh600000', 'test.html') #text= geturl('http://www.sina.com.cn', 'test.html') print(text) #打印
下面是结果,是个javascript赋值代码:
var hq_str_sh600000="浦发银行,16.260,16.280,16.320,16.370,16.250,16.300,16.340,12638809,206022869.000,66650,16.300,40959,16.290,45277,16.280,117616,16.270,187296,16.260,43400,16.340,112430,16.350,108500,16.360,115536,16.370,84210,16.380,2016-12-21,15:00:00,00";
0 0
- 最简单的Python网页爬虫
- python爬虫——写出最简单的网页爬虫
- 最简单的python爬虫
- python最简单的爬虫
- 最简单的python 爬虫
- Python入门简单的静态网页爬虫
- python 3 最简单的小爬虫
- Python 3.0最简单的爬虫
- Python 3.0最简单的爬虫
- python最简单的小爬虫
- 用 python 做简单的网页爬虫程序
- Python 学习(6)---简单的网页爬虫程序
- 抓取网页所有url的简单Python爬虫源码
- 制作简单的网页爬虫
- 一个简单的网页爬虫
- Python简单的爬虫
- 简单的python爬虫
- 简单的Python 爬虫
- 淘宝图片加载不出来案件
- 致敬2016
- 经典算法之二:冒泡排序及优化
- powerdesigner简单使用
- Jetson TX1板载摄像头测试
- 最简单的Python网页爬虫
- mysql 约束以及修改列定义(补充)
- C/C++ 读取文件内容到结构体数组中。。
- Hibernate 注解的mappedby属性
- Popuwindow不出现背景色问题
- JavaScript 判断被点击li的ID和index
- Hadoop-1.Centos6.4安装伪分布式Hadoop
- 计算用户在页面停留的时间
- iFunk翼众筹破两百万,信任铸就成功