python爬虫实践(一):准备工作

来源:互联网 发布:echo.js下载 编辑:程序博客网 时间:2024/06/05 03:34

urllib和urllib2 库 (网页下载)

urllib 和 urllib2 库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。

  • urlliburllib2模块都做与请求URL相关的操作,但他们提供不同的功能。
    • urllib2.urlopen可以接受一个Request对象或者url,(在接受Request对象时候,并以此可以来设置一个URL的headers
    • urllib.urlopen只接收一个url
    • urlliburlencode,提供urlencode方法用来GET查询字符串的产生,而urllib2没有,这也是为什么总是 urlliburllib2 常会一起使用的原因.

正则表达式(网页解析)

正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。

Beautifulsoup(网页解析)


URL的含义

URL(Uniform / Universal Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置访问方法的一种简洁的表示,是互联网上标准资源的地址
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它

URL 构成:
https://www.google.co.uk/search?newwindow=1&safe=strict&q=%E7………

  1. 传送协议。(如http
  2. 服务器。(通常为域名,有时为IP地址)
  3. 端口号。(以数字方式表示,若为HTTP的预设值“:80”可省略)
  4. 路径。(以“/”字元区别路径中的每一个目录名称)
  5. 查询。(GET模式的表单参数,以“?”字元为起点,每个参数以“&”隔开,再以“=”分开参数名称与资料,通常以UTF8的URL编码,避开字元冲突的问题)

爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助


Python环境

相当于windows学习C/C++要用VS差不多,使用一些好的IDE可以加快编程速度,在Windows下可用PyCharm,在Linux下可用Eclipse for Python,根据自己喜好。使用默认的shell和vim也不错。

0 0