Web Scraping with Python: 使用 Python 爬 Baidu 关键词

来源：互联网发布：淘宝网购物夏装编辑：程序博客网时间：2024/06/12 01:30

一、引言

自从开始看《Web Scraping with Python》这本书之后，我就天天想着给自己创造需求练习爬虫实践。

我相信每一个学习爬虫的人，都曾经想过在搜索引擎上爬些有趣的东西。在自己实现了 GitHub Star 数、CSDN 博客信息的爬取之后，自然而然，就想要去爬取一下百度。

想要了解前两个实例的实现的同学，可以点击这里：
Web Scraping with Python: 使用 Python 爬 GitHub Star 数
Web Scraping with Python: 使用 Python 爬 CSDN 博客

先给自己定一个需求吧：

输入指定关键词，输入指定的条目数，最后爬虫程序将爬取到的结果信息写入到本地的一个 MarkDown 文件中，以表格形式显示出来

在经历了之前两个实例的实践之后，这个需求看起来也不会很难。

接下来，让我们开始吧！

二、分析：爬取规则

我们想要爬取指定关键词的搜索条目，就需要了解一些规则信息，通过这些规则信息，我们就可以编写指定的爬虫程序完成我们想要的需求。

在这里，我们需要的信息如下：

1. 入口网址是什么？
这是一个非常重要的问题。接下来让我们打开网址测试下，我们在百度一下中输入 python 测试词条，发现其生成了复杂的 url:

https://www.baidu.com/s?wd=python&rsv_spt=1&rsv_iqid=0xf2a1a84300027a1e&issp=1&f=8&rsv_bp=0&rsv_idx=2&ie=utf-8&tn=baiduhome_pg&rsv_enter=1&rsv_sug3=10&rsv_sug1=11&rsv_sug7=100&rsv_sug2=0&inputT=2354&rsv_sug4=2354

这么复杂？！通过查询资料，发现百度会通过环境信息对于你搜索的结果进行一些适配的变化，而我们不需要这些信息，因此，我们可以输入这么一个 url:

https://www.baidu.com/s?wd=python

那么，这个就是我们的入口网址了，https://www.baidu.com/s?wd= 后加上关键词即可。

2. 我们如何实现多页的跳转？
这个问题涉及到了我们大量信息的收集。这里，我查看了下百度的下一页按钮的样式：

<a href="/s?wd=asdfafdsasdfasdfffffffffffffffffffff&amp;pn=10&amp;oq=asdfafdsasdfasdfffffffffffffffffffff&amp;ie=utf-8&amp;rsv_pq=b5e8070300006cbc&amp;rsv_t=d4cbSiBUdx2J%2BXs6yKLuS3IvH8QA0fg9TcrRwpbwp0WASJ1szyVs5a20HdU&amp;rsv_page=1" class="n">下一页&gt;</a>

而当最后一页的时候，就不会有下一页按钮出现。我们可以通过这个信息来遍历循环，查询当前页是否有 text=“下一页”的 a 标签，即可了解当前页是否有下一页内容。
而有关页面的切换，从这个 a 标签中获取 href 是一个不那么简单的方法，这里我通过多次尝试发现：

https://www.baidu.com/s?wd=python&pn=0https://www.baidu.com/s?wd=python&pn=10https://www.baidu.com/s?wd=python&pn=20https://www.baidu.com/s?wd=python&pn=30

通过在 url 后面加上 &pn= 数字即可实现翻页，其中 0 是第一页，10 是第二页，20 是第三页，依次类推。

3. 我们如何抽取每一个搜索结果的信息？
这一块就是这个爬虫程序的核心之处了。通过搜索 python 词条进行测试，我打开了 Chrome 浏览器的 F12 模式中，对于相对应的元素进行查看，发现了以下规则：

所有搜索结果都在 id 为 content_left 的 div 中
一般的搜索结果都是 class 为 result c-container 的 div 组成的
与百度官方产品有关的搜索结果，其 div 的 class 都是会在 result 后面加上一个 -op 的，即 result-op c-container，百度百科还会在后面加上 xpath-log 即 result-op c-container xpath-log

通过上述规则，我们就可以抽取出搜索结果，并且将其每个搜索结果的标题、简介、url 都抽取出来（主要还是分析 html 的特征）

至此，我们基本上已经拥有了写出这个爬虫程序的知识。但是这里还有一个坑，那就是百度的反爬虫机制。

三、分析：爬虫伪装浏览器

如果你只是简简单单考虑上述的逻辑，写出来的代码可能还是会出问题：

比如说你会发现你 urlopen 之后返回的内容竟然没有包含你想要的网页布局信息！

这是为什么呢？

通过查询了相关资料，我发现原来百度是会拒绝爬虫程序的访问的，而我们想要继续我们的爬行之旅，就必须要使我们的爬虫程序伪装成浏览器。

在参考了这篇博客：
Python3 爬虫实例（二） – 伪装浏览器

我使用 Fiddler 查看了自己的 Chrome 浏览器访问百度的请求头信息，然后在之前使用 urlopen 打开网址之前，先设置请求的 header 信息，将其 User-Agent 设置为图中看到的信息。

header

...url = 'https://www.baidu.com/s?wd=' + keyword + '&pn=' + str(page)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '                              'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}req = Request(url=url, headers=headers)html = urlopen(req)...

这样尝试之后，果然就不再出现之前返回数据异常的问题了。

四、代码编写

现在，万事俱备，我们可以开始编写代码了，先展示我的代码吧：

from urllib.request import urlopenfrom urllib.request import Requestfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport reimport pprintprint('Please input keyword:')keyword = input()print('Please input results limit:')limit = input()info = []page = 0while True:    # 1. Pretend Browser, Open first page.    try:        url = 'https://www.baidu.com/s?wd=' + keyword + '&pn=' + str(page)        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) '                                 'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Safari/537.36'}        req = Request(url=url, headers=headers)        html = urlopen(req)    except HTTPError:        print('Open ' + 'https://www.baidu.com/s?wd=' + keyword + ' failed')        break    # 2. Record data in one page.    bsObj = BeautifulSoup(html)    for result in bsObj.find('div', {'id': 'content_left'})\                       .findAll('div', class_=re.compile('^result(.)*c-container(.)*')):        try:            newResult = {}            newResult['title'] = result.find('h3', class_=re.compile('t(.)*')).get_text().strip().replace('|', '\|')            newResult['brief'] = result.find('div', {'class': 'c-abstract'}).get_text().strip().replace('|', '\|')            newResult['url'] = result.find('h3').find('a').attrs['href']            if len(info) < int(limit):                info.append(newResult)            else:                break        except AttributeError:            print('This reuslt missing something! No worries though!')            continue    # 3. Move to new page    if len(info) >= int(limit):        break    nextPage = bsObj.find('a', text='下一页>')    if nextPage is None:        print('No more results!')        break    else:        page += 10with open('record.md', 'w', encoding='utf-8') as md:    md.write('| 标题 |' + ' 简介 |' + ' 链接 |\n')    md.write('| --- |' + ' --- |' + ' --- |\n')    for result in info:        md.write(('| ' + str(result['title']) + ' | ' +                  str(result['brief']) + ' |' +                  str(result['url']) + ' |\n'))pprint.pprint(info)