第1章初见网络爬虫

来源：互联网发布：淘宝介入是什么意思编辑：程序博客网时间：2024/05/21 06:55

我是用windows系统，虽然也想装B用下linux，但是装不住....

第1章初见网络爬虫

1.1网络连接

本书用的是python3，现在使用的是python的标准库，urllib，用得比较多的应该是requests库。

urllib库的官方文档：https://docs.python.org/3/library/urllib.html

1.2　BeautifulSoup简介

1.2.1　安装BeautifulSoup

官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

使用pip命令安装BeautifulSoup库：你装IDLE的时候，没添加到环境变量的话，应该是要在命令行窗口进入python安装目录的script文件夹下面，再输入以下命令：

pip install beautifusoup4

1.2.2　运行BeautifulSoup

我修改了一下书上的例子，因为我访问他那个网站太慢了。

from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")

#书上没有写'html.parser'，很多教程好像都不写这个，但是我运行就会报错，必须加上解析的。
bsObj = BeautifulSoup(html.read(),'html.parser') 
#书上输出的是<h1>，我输出<title>print(bsObj.title)

运行结果如下：

1.2.3 可靠的网络连接

主要是讲处理异常，让程序能一直运行下去。

from urllib.request import urlopenfrom bs4 import BeautifulSoupfrom urllib.error import HTTPErrordef getTitle(url):    try:        html = urlopen(url)    except HTTPError as e:        return None    try:        bsObj = BeautifulSoup(html.read(),"html.parser")        title = bsObj.title    except AttributeError as e:        return None    return titletitle =getTitle("http://www.baidu.com")if title == None:    print("Title could not be found!")else:    print(title)

阅读全文

0 0

第1章初见网络爬虫

我是用windows系统，虽然也想装B用下linux，但是装不住....

第1章初见网络爬虫

1.1网络连接

1.2 BeautifulSoup简介

1.2.1 安装BeautifulSoup

1.2.2 运行BeautifulSoup

1.2.3 可靠的网络连接

1.2　BeautifulSoup简介

1.2.1　安装BeautifulSoup

1.2.2　运行BeautifulSoup