使用xpath提取极客学院python课程内容名称

来源:互联网 发布:手机网络创业 编辑:程序博客网 时间:2024/06/05 16:46

最近在熟悉python的时候偶然想试一试写一个简单的单线程爬虫,于是知道了有XPATH这个神器,它的主要用法如下:

1.//定位根节点

2./往下层寻找

3.提取文本内容:/text()

4.提取属性内容:/@xxxx

在使用的过程中写了一个提取极客学院python课程名的简单爬虫,代码不到20行,给想学习python以及网络爬虫技术的朋友一个参考:

#!/usr/bin/env pythonfrom lxml import etreeimport requestsimport jsonimport sysreload(sys)sys.setdefaultencoding('utf-8')url = "http://www.jikexueyuan.com/path/python"html = requests.get(url)selector = etree.HTML(html.text)content_field = selector.xpath('//h2[@class="lesson-info-h2"]/a/text()')for i in content_field:print i 


1 0