Selenium学习三——利用Python爬取网页表格数据并存到excel
来源:互联网 发布:java中super是什么意思 编辑:程序博客网 时间:2024/05/17 04:16
利用Python爬取网页表格数据并存到excel
1、具体要求:
读取教务系统上自己的成绩单,并保存到本地的excel中
2、技术要求:
利用Selenium+Python获取网页,自动登陆并操作到成绩单页面
通过xlwt模块,将表格保存到本地excel
(其中xlwt模块通过cmd打开命令框,输入pip install xlwt下载)
3、主要代码:
#创建工作簿wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)#创建工作表sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)#表头(table_top_list包含表头每一列的值)table_top_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/thead/tr").find_elements_by_tag_name('td')#写入表头到sheet 1中,第0行第c列for c,top in enumerate(table_top_list): sheet.write(0, c, top.text)# 表的内容#将表的每一行存在table_tr_list中table_tr_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/tbody").find_elements_by_tag_name('tr')for r,tr in enumerate(table_tr_list,1): #将表的每一行的每一列内容存在table_td_list中 table_td_list = tr.find_elements_by_tag_name('td') #写入表的内容到sheet 1中,第r行第c列 for c,td in enumerate(table_td_list): sheet.write(r, c, td.text)#保存表格到已有的 excelwbk.save(r'C:\xxx\test.xls')
4、全部代码:
#coding:utf-8from selenium import webdriverimport timeimport xlwtdriver = webdriver.Chrome()driver.get("http://xxxx/")time.sleep(2)#登陆研究生系统driver.find_element_by_name("userName").send_keys("xxx")driver.find_element_by_name("password").send_keys("xxx")time.sleep(2)driver.find_element_by_xpath("html/body/div[2]/div[1]/form/div/dl/dt[3]/input[3]").click()time.sleep(2)driver.find_element_by_class_name("img_dl").click()#跳转到成绩查询按钮的frameframe1 = driver.find_element_by_name("leftFrame")driver.switch_to.frame(frame1)iframe1 = driver.find_element_by_name("zbFrame")driver.switch_to.frame(iframe1)time.sleep(3)#点击成绩查询-学期成绩查询driver.find_element_by_xpath("html/body/table/tbody/tr/td/div/div/table[4]/tbody/tr/td/a").click()driver.find_element_by_xpath("html/body/table/tbody/tr/td/div/div/div[4]/table/tbody/tr/td/a").click()#先回到原来的页面driver.switch_to.default_content()#载跳转到查询按钮所在的frameframe2 = driver.find_element_by_name("mainFrame")driver.switch_to.frame(frame2)#点击查询按钮driver.find_element_by_xpath("//button[@class='button2']").click()#创建工作簿wbk = xlwt.Workbook(encoding='utf-8', style_compression=0)#创建工作表sheet = wbk.add_sheet('sheet 1', cell_overwrite_ok=True)def save_Data(): #table_list=[] #row_list=[] #表头 table_top_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/thead/tr").find_elements_by_tag_name('td') for c,top in enumerate(table_top_list): #row_list.append(top.text) sheet.write(0, c, top.text) #table_list.append(row_list) # 表的内容 #将表的每一行存在table_tr_list中 table_tr_list = driver.find_element_by_xpath("//form[@name='studentForm']/div[3]/fieldset/table/tbody").find_elements_by_tag_name('tr') #每行输出到row_list中,将所有的row_list输入到table_list中 for r,tr in enumerate(table_tr_list,1): #将表的每一行的每一列内容存在table_td_list中 table_td_list = tr.find_elements_by_tag_name('td') #将行列的内容加入到table_list中 for c,td in enumerate(table_td_list): #row_list.append(td.text) sheet.write(r, c, td.text) #print td.text #table_list.append(row_list) #最后返回table_list #return table_listsave_Data()#保存该文件,文件必须存在wbk.save(r'C:\xxx\test.xls')#先回到原来的页面driver.switch_to.default_content()print ('done')
5、遇到的问题:
①本来准备将table的内容保存到table_list[]中,table_list里面再是row_list[],这样的方式得到的tabel_list就能保存所有的table的值,但是如何提取到excel的表格中,就成了问题,因为excel是用,sheet.write(r,c,''),这种行列的形式加入数据
所以就直接读取table数据的时候将数据直接写到excel中。
②用for循环,不知道循环到哪一个的问题
通过enumerate进行遍历以及获取遍历时的计数,默认从0开始计数
下面是摘抄的enumerate的用法:http://blog.csdn.net/churximi/article/details/51648388
- 如果对一个列表,既要遍历索引又要遍历元素时,首先可以这样写:
- 1
- 2
- 3
- 上述方法有些累赘,利用enumerate()会更加直接和优美:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- enumerate还可以接收第二个参数,用于指定索引起始值,如:
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
补充
如果要统计文件的行数,可以这样写:
- 1
这种方法简单,但是可能比较慢,当文件比较大时甚至不能工作。
可以利用enumerate():
6、关于操作excel的文章(python第三方库——xlrd和xlwt操作Excel文件学习)
http://blog.csdn.net/wangkai_123456/article/details/50457284
阅读全文
0 0
- Selenium学习三——利用Python爬取网页表格数据并存到excel
- Selenium学习四——利用Python爬取网页多个页面的表格数据并存到已有的excel中
- python 网页爬取数据并存到数据库中
- Python爬取天气预报数据,并存入到本地EXCEL中
- python爬虫爬取网页表格数据
- Python爬虫系列(四)(简单)Dota排行榜爬取,并存入Excel表格
- python初学者学习笔记(三)读取excel表格数据
- Python网络爬虫——模拟登陆爬取网站数据并加载到excl表格里
- Jsoup爬取网页上表格数据
- python爬虫实战笔记---selenium爬取QQ空间说说并存至本地(上)
- python爬虫实战笔记---selenium爬取QQ空间说说并存至本地
- 【爬虫】python selenium 爬取数据
- python selenium 爬取淘宝商品数据
- Python爬取网页数据
- 利用selenium爬取Axaj和动态网页
- 学习python爬取网页
- 利用python爬取网页图片
- 用python+selenium+firefox爬取动态网页
- Chrome开发者工具面板功能
- 文件权限的操作
- spring源码学习(七)Bean的加载(下)
- Git:warning: ignoring broken ref refs/remotes/origin/HEAD
- 4Qt音乐播放器的设计
- Selenium学习三——利用Python爬取网页表格数据并存到excel
- Windows 关闭某个进程
- Linux虚拟机中安装系统
- 基本的用户管理
- average variance standardDeviation
- 手写连接池
- java String 转char[] 以及Char[]再转回string
- Codeforces601D Acyclic Organic Compounds(dfs+字典树合并)
- 解决-win10系统-python3中import cv2显示"ImportError: DLL load failed: 找不到指定的模块。"