python3爬虫基础

来源:互联网 发布:网络骑士哪一部最好看 编辑:程序博客网 时间:2024/05/21 06:18

首先介绍urllib库,用于操作url,在做爬虫时经常会用到。本文用python3进行介绍。

一:快速使用urllib爬取网页:

1.倒入相应模块:

import urllib.request
2.使用urlopen打开并爬取一个网页:

file=urllib.request.urlopen('http://www.baidu.com')

3.将网页内容读出来,赋值给data:

data=file.read()
4.把对应数据保存到本地:

f=open('E:/crawlerData/1.html','wb')f.write(data)f.close()
此时爬去的网页文件就在对应路径下了。

注意:1.常见的三种读取方式区别:

 (1)file.read(),读取文件的全部内容,赋值给一个字符串变量。

  (2)file.readlines():读取文件的全部内容,赋值给一个列表变量。若要读取全部内容,推荐用这种方式。

 (3)file.read:读取文件的一行内容。

            2.可以使用urllib.request.urlretrieve()函数直接将对应信息写入本地文件:

    filename=urllib.request.urlretrieve("http://www.baidu.com",filename='E:/crawlerData/1.html')
3.返回与当前环境有关的信息:

file.info()
4.获取网页当前的状态码,若返回200为正确。

file.getcode()

5,编码:

urllib.request.quote("http://www.sina.com")Out[5]: 'http%3A//www.sina.com'
6解码:

urllib.request.unquote('http%3A//www.sina.com')Out[6]: 'http://www.sina.com'






      






原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 高考有英文纹身怎么办 高考手上有纹身怎么办 来大姨妈婚检怎么办 高考体检转氨酶偏高怎么办 播音主持有纹身怎么办 高考体检补不了怎么办 辅警体检不合格怎么办 小儿听力筛查未过关怎么办 宝宝听力没过关怎么办 护士体检有乙肝怎么办 高考体检表填错怎么办 高考体检表没有下载怎么办 警校视力没过怎么办 凉鞋挂钩总是脱怎么办 特别害怕抛妇产怎么办 抛妇产害怕紧张怎么办 毕业体检有乙肝怎么办? 宝宝胸围偏小怎么办 入园体检不合格怎么办 油表不显示油量怎么办 上大学体检不过怎么办 军校体检没过怎么办 六次化疗后怎么办 宝宝肚子有蛔虫怎么办 肾综激素依赖怎么办 胎儿阴囊有积液怎么办 中考学生英语很差怎么办 中考考得很差怎么办 科学总是考不好怎么办 初三学生数学不好怎么办 初三学生语文不好怎么办 初三学生英语不好怎么办 初三学生学习不好怎么办? 客户说不考虑怎么办 单位体检有乙肝怎么办 厂里体检出乙肝怎么办 厂里体检有乙肝怎么办 厂里体检查出乙肝怎么办 乙肝携带者肝功能异常怎么办 入职体检过不去怎么办 高考体检错过了怎么办