python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
来源:互联网 发布:台风gt3mini 做丝数据 编辑:程序博客网 时间:2024/04/29 03:42
今天自己看了一下python试着写了一个爬虫小程序
原始代码:
from urllib import requestrequest.encoding = "utf-8"response = request.urlopen("http://www.baidu.com") # 打开网站html =str(response.read(),'utf-8')f=open('C:/Users/lenovo/Desktop/11.html','w+')page = f.write(html)f.close()
起初在将爬取得网页保存到本地的时候出现错误:
:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 0: illegal multibyte seque
应该f的编码格式是GBK的,但是其它的是UTF-8的。所以指定一下编码格式即可。
f=open('C:/Users/lenovo/Desktop/11.html','w+',encoding='utf-8')修改后代码:
from urllib import requestrequest.encoding = "utf-8"response = request.urlopen("http://www.baidu.com") # 打开网站html =str(response.read(),'utf-8')f=open('C:/Users/lenovo/Desktop/11.html','w+',encoding='utf-8')page = f.write(html)f.close()
批量爬取网页并保存至本地
from urllib import requestrequest.encoding = "utf-8"fr = open("C:/Users/lenovo/Desktop/url.txt", "r").readlines()count = 0print(fr)for line0 in fr: line = line0.strip('\n') line = line.strip('\'') print(line+"===========================") response = request.urlopen(line) html = str(response.read(), 'utf-8') fw = open("C:/Users/lenovo/Desktop/%d.html" % count, "w", encoding='utf-8') count+=1 page = fw.write(html) fw.close()
阅读全文
0 0
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- 第一个小爬虫--爬取图片并保存
- 第一个Python爬虫,爬取某个新浪博客所有文章并保存为doc文档
- 第一个python程序,小爬虫--抓取网页图片
- python 爬取csdn网页并保存博客到本地
- 爬虫phantomjs爬取网页中文乱码
- Python第一个程序小爬虫
- [Python]使用Scrapy爬虫框架简单爬取图片并保存本地
- python爬虫由浅入深1-从网页中爬取文件并保存至本地
- python网页爬取 中文乱码
- Python3批量爬取网页图片(小爬虫)
- 第一个网页爬虫程序
- Python 爬虫多线程爬取美女图片保存到本地
- 【第一个爬虫】python爬取58同城企业信息并插入数据库
- python使用requests爬取网页,遇到中文出现乱码的编码问题及解决
- [python爬虫学习]1.爬取本地网页
- 第一个爬虫小程序
- 第一个爬虫小程序
- 在Salesforce中使用Javascript调用Apex方法
- bzoj4010 [HNOI2015]菜肴制作(拓扑排序+贪心)
- sklearn中svr(支持向量机回归)
- 小白解读微擎之路 之----bootstrap.inc.php
- 常用meta标签集锦
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- Hibernate:可行的ORM框架技术
- hibernate五大核心接口
- linux系统运维常用命令详解三
- 关于编写“AUTORUN.inf”一点心得!!!
- Vtk多图绘制
- 闭包就是能够读取其他函数内部变量的函数。
- 设计模式学习(C++实现)5——原型模式
- Qt5实现国际化