Python+Selenium实现微博自动化爬虫

来源：互联网发布：淘宝争议处理规范2016 编辑：程序博客网时间：2024/05/16 10:08

目的：

利用python和selenium实现自动化爬虫

所需工具：

1、python2.7

2、selenium库（pip install selenium或者easy_install selenium进行安装）

3、火狐浏览器

安装好上述工具之后就可以开始微博爬虫啦！

首先，打开你的python编辑器（本人使用的是sublime3），设置一下编码格式如下:

# -*- coding:utf-8 -*-

然后导入所需要的库：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import time

利用如下代码，自动打开你的火狐浏览器并跳转到微博登录首页：

driver = webdriver.Firefox()
time.sleep(3)
driver.get("http://weibo.com")

其中的time.sleep是让程序等候3秒后再接着运行，为了避免因为网速的影响而导致页面信息抓取错误。运行这段代码之后，就会发现你的浏览器已经跳转到微博登录首页了，这个时候需要让浏览器实现自动点击账号登录并输入账号和密码。代码如下：

left = driver.find_element_by_xpath( ".//*[@id='pl_login_form']/div[2]/div[1]/div/a[2]")
ActionChains(driver).double_click(left).perform()
time.sleep(3)
# 在账号输入框输入内容
driver.find_element_by_id("loginname").send_keys("***")  # 在*处输入账号信息
# 在密码输入框输入密码
driver.find_element_by_name("password").send_keys("***") # 在*处输入密码信息
# 向密码框发送命令，按下回车键
driver.find_element_by_name("password").send_keys(Keys.ENTER)

运行上述代码之后，就会发现你已经自动登录微博了，然后需要跳转到你所要爬取微博内容所在的页面：

# 跳转url到指定页面

driver.get("http://weibo.com/btvertaishidai?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop")

然后就可以开始爬取你想要的信息啦，本人所要爬取的内容有微博的粉丝数量、每条微博的内容（包括点赞数、转发数、回复数）。因为这个页面需要拖动滑动条到网页最下面才能完全显示所有信息，所以在爬取内容之前应该先将滑动条拖到最下方，代码如下：

js = "var q=document.documentElement.scrollTop=30000"
for i in range(3):
    driver.execute_script(js)
    time.sleep(1)

运行上面的所有代码之后，就可以开始爬取内容了。

# 获取粉丝量
L_1 = driver.find_element_by_xpath(".//*[@id='Pl_Core_T8CustomTriColumn__3']/div/div/div/table/tbody/tr/td[2]/strong").text
data_text = [] # 保存微博内容
data_time = [] # 保存发布微博的时间
data_relay = [] # 转发量
data_comment = [] # 评论量
data_support = [] # 支持量
for i in range(2, 50):
    try:
        text = driver.find_element_by_xpath(
            "//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[3]" % i).text
        Time = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[2]/a[1]" % i).text
        relay = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[2]/a/span/span/span/em[2]" % i).text
        comment = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[3]/a/span/span/span/em[2]" % i).text
        support = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[4]/a/span/span/span/em" % i).text
        if text:
            data_text.append(text)
            data_time.append(Time)
            data_relay.append(relay)
            data_comment.append(comment)
            data_support.append(support)
        else:
            pass
    except :
        break

上面的代码中，对于要爬取的信息并没有采用正则去匹配，而是采用Xpath（比Xpath更为精准定位的是css定位），对于Xpath不懂的可以百度一下。

运行完上面所有代码之后，这一页所要爬的内容就以及全部爬下来并分别保存在L_1(粉丝数量)、data_text(微博内容)、data_time(微博发布的时间)、data_relay(微博内容转发数量)、data_comment(微博内容评论数量)、data_support(微博内容点赞数量)，最后你就可以利用pandas将这些数据保存在csv中。

上面的代码只是爬取了一个页面的所需内容，要是想爬取多个页面，稍微修改一下代码就可以了。如果有什么不明白的，可以给文章后面的邮箱发邮件。

全部代码如下：

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
import time
 
driver = webdriver.Firefox()
time.sleep(3)
driver.get("http://weibo.com")
time.sleep(5)
left = driver.find_element_by_xpath(
    ".//*[@id='pl_login_form']/div[2]/div[1]/div/a[2]")
ActionChains(driver).double_click(left).perform()
time.sleep(3)
# 在账号输入框输入内容
driver.find_element_by_id("loginname").send_keys("***")
# 在密码输入框输入密码
driver.find_element_by_name("password").send_keys("***")
# 向密码框发送命令，按下回车键
driver.find_element_by_name("password").send_keys(Keys.ENTER)
time.sleep(3)
# 跳转url到指定页面
driver.get("http://weibo.com/btvertaishidai?is_search=0&visible=0&is_all=1&is_tag=0&profile_ftype=1&page=2#feedtop")
time.sleep(3)
# 获取粉丝量
L_1 = driver.find_element_by_xpath(".//*[@id='Pl_Core_T8CustomTriColumn__3']/div/div/div/table/tbody/tr/td[2]/strong").text
data_text = [] # 保存微博内容
data_time = [] # 保存发布微博的时间
data_relay = [] # 转发量
data_comment = [] # 评论量
data_support = [] # 支持量
# 拖动滚动条到最下方
js = "var q=document.documentElement.scrollTop=30000"
for i in range(3):
    driver.execute_script(js)
    time.sleep(1)
# 开始爬取该页面所有微博内容以及相关信息 
for i in range(2, 50):
    try:
        text = driver.find_element_by_xpath(
            "//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[3]" % i).text
        Time = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[1]/div[3]/div[2]/a[1]" % i).text
        relay = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[2]/a/span/span/span/em[2]" % i).text
        comment = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[3]/a/span/span/span/em[2]" % i).text
        support = driver.find_element_by_xpath(
            ".//*[@id='Pl_Official_MyProfileFeed__28']/div/div[%d]/div[2]/div/ul/li[4]/a/span/span/span/em" % i).text
        if text:
            data_text.append(text)
            data_time.append(Time)
            data_relay.append(relay)
            data_comment.append(comment)
            data_support.append(support)
        else:
            pass
    except :
        break

0 0