Python豆瓣静态网页抓取,lxml解析和显示(实验)
来源:互联网 发布:深圳户口 知乎 编辑:程序博客网 时间:2024/06/07 10:09
抓取的网页https://movie.douban.com/review/best/
Python源码:
import sysimport requestsimport timeurl='https://movie.douban.com/review/best/'data=requests.get(url) #用requests爬取整个页面print(data.encoding)print(data.status_code)from lxml import etreeselector=etree.HTML(data.text) #用lxml.etree对爬取的页面进行解析# 存储解析到的内容title_links=[] #评论主题subject_titles=[] #电影名字ratings=[] #评星times=[] #评论时间comments=selector.xpath('//*[@id="content"]/div/div[1]/div[1]/div') #“*”可以代替所有的节点名,HTML文档里copy XPATH查看定位xml字段,小技巧(查看同等级类别的xpath取定位符)print(len(comments)) #comments是一个列表for comment in comments: title_link=comment.xpath('.//header/h3/a/text()')[0]##html:<a href="https://movie.douban.com/review/8868602/" class="title-link">拍出了水平的哭戏</a> subject_title=comment.xpath('.//header/div/a[2]/text()')[0]##html:<a class="subject-title" href="https://movie.douban.com/subject/25870236/">可爱的你</a> rating=comment.xpath('.//header/div/span[1]/@title')[0]##html:<span class="allstar40 main-title-rating" title="推荐"></span> time=comment.xpath('.//header/div/span[3]/text()')[0]##html:<span property="v:dtreviewed" content="2017-10-16" class="main-meta">2017-10-16 10:52:51</span> title_links.append(title_link) subject_titles.append(subject_title) ratings.append(rating) times.append(time)comment_dict={'title_links':title_links,'subject_titles':subject_titles,'ratings':ratings,'times':times}import pandas as pdcomment_df=pd.DataFrame(comment_dict)#'contents'comment_df
抓取结果:
阅读全文
0 0
- Python豆瓣静态网页抓取,lxml解析和显示(实验)
- 安装lxml,抓取、解析网页
- Python网页抓取之Lxml
- Python爬虫之抓取豆瓣信息 全部网页显示
- Python抓取和解析网页
- Python 利用urllib2 lxml 抓取网页信息
- 使用lxml抓取网页
- 利用Python抓取和解析网页(下)
- 利用Python抓取和解析网页(1)
- 利用Python抓取和解析网页(2)
- 利用Python抓取和解析网页(3)
- 利用Python抓取和解析网页(4)
- 利用Python抓取和解析网页(5)
- 利用Python抓取和解析网页
- 利用Python抓取和解析网页
- 利用Python抓取和解析网页(…
- 利用Python抓取和解析网页 .
- 利用Python抓取和解析网页
- 树梅派应用20:树莓派GPIO入门08-使用74HC595芯片驱动数码管(一)
- 指针运算
- 树莓派GPIO入门11-驱动液晶屏幕(一)
- pip install polyglot 出现的问题总结
- 读凯文·米特尼克的黑客传奇经历
- Python豆瓣静态网页抓取,lxml解析和显示(实验)
- ubuntu下安装android开发环境
- Android 开发之 Gradle那些事儿(一)
- struts实现文件上传与下载
- 17.10.17
- SCP基金会:互联网下的集体写作项目
- linux删除一个文件夹下面的多个文件夹
- 3.1.14多线程通讯(实战:交叉备份数据)
- Codeforces Round #441 (Div. 2)C. Classroom Watch(枚举+脑子)