初学python,爬虫开刀
来源:互联网 发布:有道网络已断开 编辑:程序博客网 时间:2024/04/28 05:40
拉勾网-北京python薪水数据
#-*- coding:utf-8 -*-import urllibimport jsonimport csvimport codecscsvfile = file('pythonSalary.csv', 'wb')csvfile.write(codecs.BOM_UTF8)writer = csv.writer(csvfile)for i in range(1,100): response = urllib.urlopen("http://www.lagou.com/jobs/positionAjax.json?city=%E5%85%A8%E5%9B%BD&kd=python&pn="+str(i)) html = response.read() decoded = json.loads(html) result = decoded["content"]["result"] htmlDumps = json.dumps(result, sort_keys=True) resultDump = json.loads(htmlDumps) if i==1: writer.writerow(resultDump[0].keys()) for j in range(0,len(resultDump)): writer.writerow(resultDump[j].values())csvfile.close()
数据暂时保存到csv中
其中遇到的问题
- 编码问题 UnicodeEncodeError: ‘ascii’ codec can’t encode character u’\u6211’ 。解决方法为:在python安装目录下的lib\site-packages文件夹下新建一个sitecustomize.py,文件中的代码为:
import sys sys.setdefaultencoding('utf-8')
2 文件写入后乱码问题
解决方法如下csvfile.write(codecs.BOM_UTF8)
0 0
- 初学python,爬虫开刀
- python爬虫初学(2)
- 初学python爬虫
- 1. 初学python爬虫
- 初学python爬虫
- python爬虫初学
- Python爬虫初学(1)
- python爬虫初学(3)
- Python爬虫初学(4)
- 初学python,爬虫小项目
- python初学(爬虫+web开发)
- Python爬虫初学(1)豆瓣电影top250评论数
- Python爬虫初学(2)豆瓣电影top250评论数
- Python爬虫初学(3)登陆武汉理工大学教务处
- 【python爬虫初学练习】老司机飙车,请系好安全带
- 关于初学python爬虫的一点问题总结(三)
- python-网络爬虫初学三:网络异常的捕获
- python-网络爬虫初学四:cookie的存储与读取
- Opencv学习笔记(六)SURF学习笔记
- 【SDCC讲师专访】首席架构师徐海峰眼中的架构和出色的架构师
- android canvas.drawText()的研究
- 国内外Android大牛Blog
- 字符与编码
- 初学python,爬虫开刀
- struct的用法--------C语言结构体(struct)常见使用方法(转载)
- 好用的GIF捕捉器——LICEcap
- 《iOS Human Interface Guidelines》——Modal View
- Android 百度地图开发(二)--- 定位功能之MyLocationOverlay,PopupOverlay的使用
- TCP/IP(九)TCP协议概述
- Linux 的多线程编程的高效开发经验
- Word揭秘:公式还能这么玩!
- 【傻瓜图文式】Win系统下制作U盘CLOVER引导+安装原版Mavericks10.9+安装问题总结