第1章初见网络爬虫

来源:互联网 发布:淘宝介入是什么意思 编辑:程序博客网 时间:2024/05/21 06:55

我是用windows系统,虽然也想装B用下linux,但是装不住....

第1章初见网络爬虫

1.1网络连接

    本书用的是python3,现在使用的是python的标准库,urllib,用得比较多的应该是requests库。
urllib库的官方文档:https://docs.python.org/3/library/urllib.html

1.2 BeautifulSoup简介

1.2.1 安装BeautifulSoup

官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/

    使用pip命令安装BeautifulSoup库:你装IDLE的时候,没添加到环境变量的话,应该是要在命令行窗口进入python安装目录的script文件夹下面,再输入以下命令:
pip  install beautifusoup4

1.2.2 运行BeautifulSoup

我修改了一下书上的例子,因为我访问他那个网站太慢了。
from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("http://www.baidu.com")
#书上没有写'html.parser',很多教程好像都不写这个,但是我运行就会报错,必须加上解析的。
bsObj = BeautifulSoup(html.read(),'html.parser') 
#书上输出的是<h1>,我输出<title>print(bsObj.title)

 运行结果如下:
<title>百度一下,你就知道</title>

1.2.3  可靠的网络连接

主要是讲处理异常,让程序能一直运行下去。
from urllib.request import urlopenfrom bs4 import BeautifulSoupfrom urllib.error import HTTPErrordef getTitle(url):    try:        html = urlopen(url)    except HTTPError as e:        return None    try:        bsObj = BeautifulSoup(html.read(),"html.parser")        title = bsObj.title    except AttributeError as e:        return None    return titletitle =getTitle("http://www.baidu.com")if title == None:    print("Title could not be found!")else:    print(title)







原创粉丝点击