爬虫 xpath 的使用与范例

来源:互联网 发布:海湾crt软件操作说明 编辑:程序博客网 时间:2024/06/05 00:54




#coding:utf-8from flask import Flaskimport requestsfrom lxml import etreeapp= Flask(__name__)app.debug =True#爬取小说并返回到前台@app.route('/',methods=['GET','POST'])def index():    r = requests.get("http://www.biquge.com.tw/0_703")    html = etree.HTML(r.content)    # print r.content    print '--------------------111'    # f = html.xpath('//div[@id="list"]/dl/dd/a/text()')#获取id为list的盒子下的  文本内容    f = html.xpath('//div[@id="list"]/dl/dd/a/@href')#获取a标签的 href属性    f = html.xpath('//div[@id="list"]/dl/dd/a')    print '---------------------2'    print f    text =''    for i in f:        a = i.xpath('text()')#获取文本        b = i.xpath('@href')#获取属性href        # print a        text = text+a[0]+'--'+'http://www.biquge.com.tw/'+b[0] +'<br>'    return  textif __name__ == '__main__':    app.run()


原创粉丝点击