简单的python爬取网页字符串内容并保存
来源:互联网 发布:女鞋设计软件 编辑:程序博客网 时间:2024/04/29 09:41
最近想试试python的爬虫库,就找了个只有字符串的的网页来爬取。网址如下:
http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430
打开后看到是一些歌名还有hash等信息。按照hash|filename的方式存在文件里,先贴代码#coding=utf-8import urllibimport reimport os def getHtml(url): page = urllib.urlopen(url) html = page.read() return html def getHash(html): reg = r'"hash":"(.+?)",' has = re.compile(reg) hashlist = re.findall(has,html) with open('1.txt','w') as f: for has in hashlist: f.write(has+"|"+"\r\n") def getName(html): reg=r'"filename":"(.+?)",' name=re.compile(reg) namelist=re.findall(name,html) with open('1.txt','rb') as fr: with open('2.txt','wb') as fw: for name in namelist: for l in fr: fw.write(l.replace(b'\r\n', name+b'\r\n')) break html=getHtml("http://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430")getHash(html)getName(html)os.remove('1.txt')
说起来也比较简单,就是拿到取html页面后按照正则取两次内容后存在txt里面。
0 0
- 简单的python爬取网页字符串内容并保存
- python 爬取csdn网页并保存博客到本地
- python爬取网页内容
- 抓取网页内容并保存,获取两个字符串之间的内容
- Python MOOC简单获取网页内容并以html格式保存在本地
- Python简单的爬取网页信息并生成json文件与乱码解决小记
- Python爬取简单网页
- python小试牛刀之爬取网页文本内容保存到本地
- Java爬取网页内容的简单例子
- [python爬虫]--爬取mzitu.com的图片并保存
- 一个简单java爬虫爬取网页中邮箱并保存
- 一个简单java爬虫爬取网页中邮箱并保存
- java爬取网页内容 简单例子
- java爬取网页内容 简单例子
- java简单爬取网页内容实例
- Python 爬取网页内容,转成PDF
- python urllib2 爬取网页内容
- 获取网页内容,并保存
- 研究试验3 使用内存空间
- WordPress插件 WP Rocket 缓存火箭加速优化插件 [更新至v2.7.4]
- poj1273完全不懂为何过的dinic最大流模板
- CrapApi项目结构
- c++对象导出到lua
- 简单的python爬取网页字符串内容并保存
- C++中getline函数用法(修正调试ok)
- mysql截取日期
- WordPress插件 Foxlogin 连接腾讯QQ与新浪微博接入登录[v4.0]
- 文章标题设计模式第一个:“策略模式(Strategy Pattern)
- HDU 3473Minimum Sum 划分树
- 【使用Postman测试web接口】管理http请求
- swift基础语法--闭包
- wireshark