python爬虫实践(一):准备工作
来源:互联网 发布:echo.js下载 编辑:程序博客网 时间:2024/06/05 03:34
urllib和urllib2 库 (网页下载)
urllib 和 urllib2 库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。
- urllib和urllib2模块都做与请求URL相关的操作,但他们提供不同的功能。
urllib2.urlopen
可以接受一个Request
对象或者url
,(在接受Request
对象时候,并以此可以来设置一个URL的headers
)urllib.urlopen
只接收一个url
urllib
有urlencode
,提供urlencode
方法用来GET查询字符串的产生,而urllib2
没有,这也是为什么总是urllib
,urllib2
常会一起使用的原因.
正则表达式(网页解析)
正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。
Beautifulsoup(网页解析)
URL的含义
URL(Uniform / Universal Resource Locator),即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL 构成:
https://www.google.co.uk/search?newwindow=1&safe=strict&q=%E7………
- 传送协议。(如http)
- 服务器。(通常为域名,有时为IP地址)
- 端口号。(以数字方式表示,若为HTTP的预设值“:80”可省略)
- 路径。(以“/”字元区别路径中的每一个目录名称)
- 查询。(GET模式的表单参数,以“?”字元为起点,每个参数以“&”隔开,再以“=”分开参数名称与资料,通常以UTF8的URL编码,避开字元冲突的问题)
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助
Python环境
相当于windows学习C/C++要用VS差不多,使用一些好的IDE可以加快编程速度,在Windows下可用PyCharm,在Linux下可用Eclipse for Python,根据自己喜好。使用默认的shell和vim也不错。
0 0
- python爬虫实践(一):准备工作
- python爬虫入门教程(一):开始爬虫前的准备工作
- 写Python爬虫的准备工作
- Python爬虫实践笔记(一)
- python爬虫入门实践
- Python爬虫Scrapy实践
- Python学习笔记之爬虫实践(一)
- 爬虫实践(一)--手写爬虫
- python爬虫中的mongo实践
- Python实践 贴吧爬虫
- python爬虫实践----爬取京东图片
- python学习之女神微博追追追(一)准备工作
- R语言爬虫实践一
- python 爬虫学习一
- Python爬虫(一)
- 小小Python爬虫一
- python 爬虫总结(一)
- Python爬虫笔记一
- error: #error Your compiler is too buggy
- 单例模式
- Android 基础—— 对Context的理解与使用技巧
- Redis集群的搭建
- 实习总结(一)
- python爬虫实践(一):准备工作
- hdoj 2025
- Linux网络配置 DNS配置信息丢失 可能原因分析
- wifi天线的工作分析
- ubuntu1404安装Vundle和YouCompleteMe
- FragmentManager后台保存机制
- 挖矿软件cgminer的配置文件和命令行参数详解
- Firebug调试工具
- android5.0之Vector Drawables(矢量图)