python3爬虫学习
来源:互联网 发布:luastudio for mac 编辑:程序博客网 时间:2024/05/21 09:24
是在python3上面实践的
开始的模块肯定是用到urllib这个模块,在python2中是使用urllib2
代码如下:
import urllib.requestwangye= urllib.request.urlopen('http://www.baidu.com')xml = wangye.read()xml = xml.decode('UTF-8')print(xml)
在这里面不加 ‘//’号是报错的,http也得加上,urlopen是有:
urlopen(url, data, timeout)
1.URL的一般语法格式为:
(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
2.第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
3.在学习 urllib.parse.urlencode这个关键字的时候,发生的很多的错误,在此记录,在网址后面多加一个斜杠,就正确了。
代码如下:
import urllibimport urllib.requestimport urllib.parsedata= {}data['word'] = 'Jecvay Notes'url_values = urllib.parse.urlencode(data)url = "http://www.baidu.com/"full_url = url+url_values'''data = urllib.request.urlopen(full_url).read()'''data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')print(data)
注意:在7行,url后面加上”/”,不然会报错
9行和10行,所获取的数据是不一样的。
0 0
- python3爬虫学习
- Python3简单爬虫学习
- python3爬虫基础学习
- Python3爬虫入门学习
- python3爬虫学习
- python3.x之爬虫学习
- python3 爬虫学习日记【一】
- python3爬虫学习(一)
- Python3爬虫视频学习教程
- python3学习爬虫 正则以及url
- python3 爬虫学习——1
- python3 爬虫学习——2
- Python3.6 学习爬虫入门篇
- Python3爬虫学习1:入门篇
- Python3爬虫学习笔记1.0——什么是爬虫?
- python3.x爬虫学习:股票数据定向爬虫笔记
- python3 爬虫
- python3爬虫
- mysql 主从复制
- AVL树(三)之 Java的实现【转】
- AJAX与跨域请求CORS(JS)
- phonegap打包
- Ubuntu系统环境搭建
- python3爬虫学习
- 设计模式学习笔记-观察者模式
- 爱在心中
- iOS 对本地图片的压缩
- css3知识点(2)
- 单例设计模式
- 【排序二】选择排序(选择排序&&堆排序)
- Android 蓝牙通信的开发与应用
- 5. Longest Palindromic Substring (Medium)