第1章初见网络爬虫
来源:互联网 发布:淘宝介入是什么意思 编辑:程序博客网 时间:2024/05/21 06:55
我是用windows系统,虽然也想装B用下linux,但是装不住....
第1章初见网络爬虫
1.1网络连接
本书用的是python3,现在使用的是python的标准库,urllib,用得比较多的应该是requests库。
urllib库的官方文档:https://docs.python.org/3/library/urllib.html
1.2 BeautifulSoup简介
1.2.1 安装BeautifulSoup
官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
使用pip命令安装BeautifulSoup库:你装IDLE的时候,没添加到环境变量的话,应该是要在命令行窗口进入python安装目录的script文件夹下面,再输入以下命令:
pip install beautifusoup4
1.2.2 运行BeautifulSoup
我修改了一下书上的例子,因为我访问他那个网站太慢了。
from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")
#书上没有写'html.parser',很多教程好像都不写这个,但是我运行就会报错,必须加上解析的。
bsObj = BeautifulSoup(html.read(),'html.parser')#书上输出的是<h1>,我输出<title>print(bsObj.title)
运行结果如下:
<title>百度一下,你就知道</title>
1.2.3 可靠的网络连接
主要是讲处理异常,让程序能一直运行下去。
from urllib.request import urlopenfrom bs4 import BeautifulSoupfrom urllib.error import HTTPErrordef getTitle(url): try: html = urlopen(url) except HTTPError as e: return None try: bsObj = BeautifulSoup(html.read(),"html.parser") title = bsObj.title except AttributeError as e: return None return titletitle =getTitle("http://www.baidu.com")if title == None: print("Title could not be found!")else: print(title)
阅读全文
0 0
- 第1章初见网络爬虫
- 初见Python网络爬虫
- 初见网络爬虫
- 第一章 初见网络爬虫
- 初见秦第
- 第2周项目初见对象--时间类(1)
- python第三天_网络爬虫
- 自己动手写网络爬虫(第一天)
- 第一周测验:网络爬虫之规则
- 网络爬虫 学习1
- 网络垂直爬虫-1
- [Python]网络爬虫1
- 网络爬虫1
- Python网络爬虫1
- 面试之网络编程初见
- 初见SpringMVC之网络请求
- 【Python爬虫1】网络爬虫简介
- dySE:一个 Java 搜索引擎的实现,第 1 部分: 网络爬虫
- java反射机制
- Linux Kernel 学习笔记11:时间、延时
- Python2与3共存后的pip问题
- Select2开源项目如何轻松加入到项目中
- Android Ndk开发配置
- 第1章初见网络爬虫
- 程序员生涯
- NanoPC-T2(S5P4418)无法通过Android usb host API识别两个以上USB设备
- thinkPHP3.2 第三方登录(QQ登录)
- bootbox中文
- Java 连接虚拟机上的 redis
- IOS 从app store下载运行ios9.3以下的系统就崩溃
- Oracle数据库卸载
- 根据宝宝生日返回当前宝宝年龄