爬取《小王子》豆瓣短评前5页的短评数据

来源:互联网 发布:history linux 查询 编辑:程序博客网 时间:2024/05/17 07:47

思考一下,以下代码还有什么更加简洁的写法?

import requestsfrom lxml import etreeimport pandas as pdurls = ['https://book.douban.com/subject/1084336/comments/hot?p={}'.format(str(i)) for i in range(1, 6)]# 通过观察的url翻页规律,使用for循环得到5个链接,保存到urls列表中comment = []       # 初始化用于保存短评的列表for url in urls:   # 使用for循环分别获取每个页面的数据    r = requests.get(url).text  # 请求获取文本数据    s = etree.HTML(r)           # 用于解析HTML对象    file = s.xpath('//div[@class="comment"]/p/text()')    comment = comment + filedf = pd.DataFrame(comment)   # 把comment列表转换为pandas DataFramedf.to_excel('短评数据.xlsx')  # 使用pandas把数据保存到excel表格