Python爬虫（2）——爬取微博内容

来源：互联网发布：端口定义编辑：程序博客网时间：2024/06/05 12:44

本文通过一种简单的方式来抓取华为终端官方微博的内容信息。首先抓取登录微博的cookie，然后使用cookie来登录微博。
具体的代码如下所示：

# -*- coding: utf-8 -*-"""Created on Sun Apr 16 14:16:32 2017@author: zch"""import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pd#放入cookie信息cook = {"Cookie":"_T_WM=..."} #爬取华为终端官方微博的内容url = "https://weibo.cn/huaweidevice"html = requests.get(url,cookies=cook).content#使用Beautiful来解析网页内容。soup =BeautifulSoup(html,"html.parser")r = soup.findAll('span',attrs={"class" : "ctt"})for e in r:    print(e.text)

运行结果如下所示：
这里写图片描述

当然，上面的代码一次只能实现爬取少量的内容信息，还很简陋。后面要想办法解决多页连续爬取和自动分类存储的问题。

0 0