小小白爬虫入门——selenium模拟登录qq空间

来源:互联网 发布:xp系统cpu优化工具 编辑:程序博客网 时间:2024/06/07 19:02

第一次写爬虫是因为想要爬小伙伴空间的说说和留言,结果卡在了验证码。目前还没有解决自动输入验证码的问题。遇到了一下一些问题:
1.火狐浏览器需要下载geckodriver
2.登录表单在frame中,需要切换
3.切换后,要返回默认的主文档(是为了进行下一步操作,比如爬取当前页面的说说内容或定位当前页面的一些元素)

#coding=utf-8import timefrom selenium import webdriverimport sys# 使用的火狐浏览器driver = webdriver.Firefox()# 要进入的空间urldriver.get("https://user.qzone.qq.com/1597872870")# 登录表单在一个新的frame下,要先切换到这个frame,不然找不到账号密码的输入控件driver.switch_to_frame('login_frame')driver.find_element_by_id('switcher_plogin').click()driver.find_element_by_id('u').clear()driver.find_element_by_id('u').send_keys('qq账号')driver.find_element_by_id('p').clear()driver.find_element_by_id('p').send_keys('qq密码')time.sleep(3)driver.find_element_by_id('login_button').click()# 好像有时候需要输入验证码,暂停20秒手动输入验证码time.sleep(20)driver.switch_to.default_content()

算是挖了一个坑,慢慢开始填坑吧。写这个爬虫已经好久了,一直想着写博客记录,但是毁于拖延症。第一次写,中间遇到的问题其实还挺多,但是,时间长…就忘了。下篇就写,如何爬取空间留言板的内容吧。先立个flag。