Python爬虫(2)——爬取微博内容

来源:互联网 发布:端口定义 编辑:程序博客网 时间:2024/06/05 12:44

本文通过一种简单的方式来抓取华为终端官方微博的内容信息。首先抓取登录微博的cookie,然后使用cookie来登录微博。
具体的代码如下所示:

# -*- coding: utf-8 -*-"""Created on Sun Apr 16 14:16:32 2017@author: zch"""import requestsfrom bs4 import BeautifulSoupimport timeimport pandas as pd#放入cookie信息cook = {"Cookie":"_T_WM=..."} #爬取华为终端官方微博的内容url = "https://weibo.cn/huaweidevice"html = requests.get(url,cookies=cook).content#使用Beautiful来解析网页内容。soup =BeautifulSoup(html,"html.parser")r = soup.findAll('span',attrs={"class" : "ctt"})for e in r:    print(e.text)

运行结果如下所示:
这里写图片描述

当然,上面的代码一次只能实现爬取少量的内容信息,还很简陋。后面要想办法解决多页连续爬取自动分类存储的问题。

0 0
原创粉丝点击