python3爬虫学习

来源：互联网发布：luastudio for mac 编辑：程序博客网时间：2024/05/21 09:24

是在python3上面实践的
开始的模块肯定是用到urllib这个模块，在python2中是使用urllib2
代码如下：

import urllib.requestwangye= urllib.request.urlopen('http://www.baidu.com')xml = wangye.read()xml = xml.decode('UTF-8')print(xml)

在这里面不加 ‘//’号是报错的，http也得加上，urlopen是有：
urlopen(url, data, timeout)
1.URL的一般语法格式为：
(带方括号[]的为可选项)：
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
2.第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT

3.在学习 urllib.parse.urlencode这个关键字的时候，发生的很多的错误，在此记录，在网址后面多加一个斜杠，就正确了。
代码如下：

import urllibimport urllib.requestimport urllib.parsedata= {}data['word'] = 'Jecvay Notes'url_values = urllib.parse.urlencode(data)url = "http://www.baidu.com/"full_url = url+url_values'''data = urllib.request.urlopen(full_url).read()'''data = urllib.request.urlopen(url).read()data = data.decode('UTF-8')print(data)

注意：在7行，url后面加上”/”，不然会报错
9行和10行，所获取的数据是不一样的。

0 0