python爬虫基本数据类型
来源:互联网 发布:上海it helpdesk招聘 编辑:程序博客网 时间:2024/04/30 14:05
一:起因
(0)爬虫就是网络蜘蛛,爬取指定URL的html网页的内容,所以会需要urllib2包,字符串string的操作肯定也是需要的,以及字符串匹配包re。
(1)Python的嵌套类型,一般在基础教程里面很少涉及到的;Python的更高级应用肯定会涉及的,只是个人能力有限,如今没有深入,期待不就将来接触学习一下。
(2)说起嵌套类型,这要从Java 或则 c++的嵌套类型说起,只要你处理数据,增删该查一般都会涉及到嵌套类型,原来的语言中涉及到,自然而然的想到了Python肯定也可以应用嵌套类型。
(3)下面简单的通过实例介绍一下嵌套类型,结合之前的blog,就基本上可以处理文本数据了。
python-共享模块代码
Python初学者的17个技巧
二:代码实战
(1)Python字典嵌套(就是hash嵌套) 以及 list(列表)嵌套类型的示例
(2)简单的网络爬虫
(3)urllib*简介 转载自 http://www.cnblogs.com/yuxc/archive/2011/08/01/2123995.html
1). urllib:
官网的一句话描述是:通过url打开任意资源。从官网的简介来看,这个模块最初是模拟文件模块来实现的,只是将本地的文件路径,改为远程的互联网url。常用操作有:
urlopen(url, [,data])——根据url打开一个网页,根据参数区分post或者get
urlretrieve()——将指定url的网页内容复制一份到指定的本地文件
quote()——将url中的特殊字符或汉字encode成指定编码
unquote()——将url中的url编码解码
详情参看:http://docs.python.org/2/library/urllib.html
2). urllib2:
官网的一句话描述很笼统:打开url的拓展库。主要是说,对url打开的一些更复杂的操作,如操作相关的一些认证、重定向和cookie等等。这样来看,更印证了urllib模块是模拟文件操作实现的思路。因为这些“复杂操作”是打开url独有的,文件操作确实不存在的。urllib2中没有quote和unquote的操作,这个只在urllib中有;同时也没有了urlretrieve。常见的操作:
urlopen(url,[,data],[,timeout])——增加了请求响应的超时时间,在urllib中需要借助socket模块来实现,这里更方便了,登场率也就更高了
Request.* ——添加了对Request的支持;也可以方便的操作Header里面的东西了
详情参看:http://docs.python.org/2/library/urllib2.html
3). urllib3:
首先,这个不是一个标准库,是一个拓展库。该模块的介绍重点说它的作用:提供了urllib和urllib2中没有的连接池和文件的post功能。由于不是标准库,因此,需要单独下载和安装,地址参看:https://pypi.python.org/pypi/urllib3。虽然他是针对python2.*版本中的urllib和urllib2的遗漏功能启动的项目,但现在也同样支持python3.3中的开发。由于个人尚无python3的使用经验,也就不多说什么了。
官网的一句话描述是:通过url打开任意资源。从官网的简介来看,这个模块最初是模拟文件模块来实现的,只是将本地的文件路径,改为远程的互联网url。常用操作有:
urlopen(url, [,data])——根据url打开一个网页,根据参数区分post或者get
urlretrieve()——将指定url的网页内容复制一份到指定的本地文件
quote()——将url中的特殊字符或汉字encode成指定编码
unquote()——将url中的url编码解码
详情参看:http://docs.python.org/2/library/urllib.html
2). urllib2:
官网的一句话描述很笼统:打开url的拓展库。主要是说,对url打开的一些更复杂的操作,如操作相关的一些认证、重定向和cookie等等。这样来看,更印证了urllib模块是模拟文件操作实现的思路。因为这些“复杂操作”是打开url独有的,文件操作确实不存在的。urllib2中没有quote和unquote的操作,这个只在urllib中有;同时也没有了urlretrieve。常见的操作:
urlopen(url,[,data],[,timeout])——增加了请求响应的超时时间,在urllib中需要借助socket模块来实现,这里更方便了,登场率也就更高了
Request.* ——添加了对Request的支持;也可以方便的操作Header里面的东西了
详情参看:http://docs.python.org/2/library/urllib2.html
3). urllib3:
首先,这个不是一个标准库,是一个拓展库。该模块的介绍重点说它的作用:提供了urllib和urllib2中没有的连接池和文件的post功能。由于不是标准库,因此,需要单独下载和安装,地址参看:https://pypi.python.org/pypi/urllib3。虽然他是针对python2.*版本中的urllib和urllib2的遗漏功能启动的项目,但现在也同样支持python3.3中的开发。由于个人尚无python3的使用经验,也就不多说什么了。
0 0
- python爬虫基本数据类型
- python基本爬虫实现
- Python爬虫基本使用
- python 爬虫 基本抓取
- python爬虫基本示例
- python基本数据类型
- python 的基本数据类型
- 基本数据类型-python
- python 基本数据类型
- python基本数据类型笔记
- Python基本数据类型
- python基本数据类型
- Python基本数据类型
- python中的基本数据类型
- Python的基本数据类型
- Python基本数据类型
- python入门--基本数据类型
- Python基础 基本数据类型
- UOJ 75 [UR #6]智商锁
- 直接插入排序
- Xcode调试之View Memory(查看内存)
- 白盒测试
- OSError: [Errno 1] Operation not permitted
- python爬虫基本数据类型
- 关于Spring中MongoTemplate.aggregate的一个奇异bug
- HDU1241(DFS求连通块)
- C开发经验3:如何避免重复包含头文件多次
- mybatis (十二) 逆向工程
- Sql_Server编程 简明教程
- Android的四层结构
- ,有一款RESTFUL接口的文档在线自动生成+功能测试功能软件——Swagger UI,具体配置过程可移步《Spring Boot 利用 Swagger 实现restful测试》
- JSON.NET VS BinaryFormatter 性能