python试爬李毅吧贴子标题,爬虫最初级

来源:互联网 发布:苹果手机变音软件 编辑:程序博客网 时间:2024/06/09 16:45

注:以下所有python代码均运行于2.7.0

最近想抓点数据存起来,开始捣鼓python。爬虫技术以前没接触过,这一回就当练手,从零开始,从最原始的方式开始。先定个小目标,抓一下著名的“李毅吧”的一些贴子标题。

要爬数据,第一步肯定是网络请求,在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前,要先安装lxml,这个用pip install lxml就可以了。

第一步,使用urllib2,先把李毅吧的url请求一下。百度目前使用的是https,这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口,python。let's go。
import urllib2from lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")p = r.read()
好了,是不是代码很简短,我们第一步就完成了。

第二步,要引入lxml,来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的,要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面,这个div的id是content,class也是content。每个贴子的标题都是一个超链接,标题内容放在这个超链接的title里。

简单的介绍一下lxml的路径表达式:
//body/a[1] 取body下的第一个a元素//a[@href] 取所有拥有属性名为href的a元素//a[@href='img.html'] 取所有htre属性为img.html的a元素根据前面的分析,要取到贴子的标题,需要这么写//div[@id='content']//a//@title
下面开始解析:
e = etree.HTML(decode_html)l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止,通过xpath能匹配到所有的贴子标题。

第三步就是数据过滤、清洗、转换、存储之类的工作了,没有什么通用性。因为l是一个列表,里面又存的是utf8,对于一些新手来说,可能很抓狂,因为不能很直观地看到汉字。
加上这一段就好了:
for item in l: print item
最后附上代码:

#-*- coding: utf-8 -*-

import urllib2import lxmlfrom lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")raw_html = r.read()decode_html = raw_html.decode("utf-8")dom_html = etree.HTML(decode_html)title_list = dom_html.xpath("//div[@id='content']//a//@title")for item in title_list:        print item

这个代码没有真正实现只抓贴子标题的功能,抓的内容超出了贴子标题的范围。还需要优化一下才可以的。


try_baidu_liyi.png
原创粉丝点击