python3爬虫学习

来源:互联网 发布:luastudio for mac 编辑:程序博客网 时间:2024/05/21 09:24

是在python3上面实践的
开始的模块肯定是用到urllib这个模块,在python2中是使用urllib2
代码如下:

import urllib.requestwangye= urllib.request.urlopen('http://www.baidu.com')xml = wangye.read()xml = xml.decode('UTF-8')print(xml)

在这里面不加 ‘//’号是报错的,http也得加上,urlopen是有:
urlopen(url, data, timeout)
1.URL的一般语法格式为:
(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
2.第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

3.在学习 urllib.parse.urlencode这个关键字的时候,发生的很多的错误,在此记录,在网址后面多加一个斜杠,就正确了。
代码如下:

import urllibimport urllib.requestimport urllib.parsedata= {}data['word'] = 'Jecvay Notes'url_values = urllib.parse.urlencode(data)url = "http://www.baidu.com/"full_url = url+url_values'''data = urllib.request.urlopen(full_url).read()'''data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')print(data)

注意:在7行,url后面加上”/”,不然会报错
9行和10行,所获取的数据是不一样的。

0 0