python爬虫(一)
来源:互联网 发布:河北11选五任6遗漏数据 编辑:程序博客网 时间:2024/06/05 14:50
网络爬虫
也叫网络蜘蛛(Web Spider),如果把互联网比喻成一个蜘蛛网,Spider就是一只在网上爬来爬去的蜘蛛。网络爬虫就是根据网页的地址来寻找网页的,也就是URL。举一个简单的例子,我们在浏览器的地址栏中输入的字符串就是URL,例如:https://www.baidu.com/
URL就是同意资源定位符(Uniform Resource Locator),它的一般格式如下(带方括号[]的为可选项):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
URL的格式由三部分组成:
(1)protocol:第一部分就是协议,例如百度使用的就是https协议;
(2)hostname[:port]:第二部分就是主机名(还有端口号为可选参数),一般网站默认的端口号为80,例如百度的主机名就是www.baidu.com,这个就是服务器的地址;
(3)path:第三部分就是主机资源的具体地址,如目录和文件名等。
网络爬虫就是根据这个URL来获取网页信息的。
python3.X的urllib库文件
在Python3.x中,我们可以使用urlib这个组件抓取网页,urllib是一个URL处理包,这个包中集合了一些处理URL的模块
1.urllib.request模块是用来打开和读取URLs的;
2.urllib.error模块包含一些有urllib.request产生的错误,可以使用try进行捕捉处理;
3.urllib.parse模块包含了一些解析URLs的方法;
4.urllib.robotparser模块用来解析robots.txt文本文件.它提供了一个单独的RobotFileParser类,通过该类提供的can_fetch()方法测试爬虫是否可以下载一个页面。
我们使用urllib.request.urlopen()这个接口函数就可以很轻松的打开一个网站,读取并打印信息。了解到这些,我们就可以写一个最简单的程序,文件名为urllib_test01.py,感受一个urllib库的魅力:
from urllib import requestif __name__ == '__main__': url = 'http://fanyi.baidu.com' req = request.Request(url) response = request.urlopen(req) print(response.read())在建立工程的时候不要将文件名写成“urllib”否则会报错为:
ImportError: No module named 'urllib.request'; 'urllib' is not a package
一个超级傻的错误,哈哈!!!
- Python爬虫(一)
- Python爬虫(一)
- python爬虫(一)
- Python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- python爬虫(一)
- Python 爬虫(一)
- python 爬虫(一)
- python爬虫(一)
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- python爬虫系列(一):爬虫简介
- Python爬虫整理(一)
- python网络爬虫(一)
- python爬虫学习(一)
- Python爬虫(一):基本概念
- 跳出双重循环--转自易咯
- DBFlow 使用概要
- Linux 显示系统信息的命令
- 卷积神经网络的特点
- Activiti工作流引擎的官方实例配置详细步骤
- python爬虫(一)
- 5个步骤,简单说下我的产品设计方法论
- AI 工程师进阶路线
- 《Java编程技巧1001条》 第345条:使用ceil方法
- 项目中的jdcp改为druid并添加监控
- RADOS:一种可扩展高可用的PB级存储集群(Ceph)
- Mysql 导入psc 文件时,数据列过多,提示Row size too large(>8126)
- android7.0的ram和rom显示
- softmax VS softmax-loss:数值稳定性