python试爬李毅吧贴子标题，爬虫最初级

来源：互联网发布：苹果手机变音软件编辑：程序博客网时间：2024/06/09 16:45

注：以下所有python代码均运行于2.7.0

最近想抓点数据存起来，开始捣鼓python。爬虫技术以前没接触过，这一回就当练手，从零开始，从最原始的方式开始。先定个小目标，抓一下著名的“李毅吧”的一些贴子标题。

要爬数据，第一步肯定是网络请求，在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。

在这些步骤进行之前，要先安装lxml，这个用pip install lxml就可以了。

第一步，使用urllib2，先把李毅吧的url请求一下。百度目前使用的是https，这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/

然后打开命令窗口，python。let's go。
import urllib2from lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")p = r.read()
好了，是不是代码很简短，我们第一步就完成了。

第二步，要引入lxml，来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的，要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面，这个div的id是content，class也是content。每个贴子的标题都是一个超链接，标题内容放在这个超链接的title里。

简单的介绍一下lxml的路径表达式：
//body/a[1] 取body下的第一个a元素//a[@href] 取所有拥有属性名为href的a元素//a[@href='img.html'] 取所有htre属性为img.html的a元素根据前面的分析，要取到贴子的标题，需要这么写//div[@id='content']//a//@title
下面开始解析：
e = etree.HTML(decode_html)l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止，通过xpath能匹配到所有的贴子标题。

第三步就是数据过滤、清洗、转换、存储之类的工作了，没有什么通用性。因为l是一个列表，里面又存的是utf8，对于一些新手来说，可能很抓狂，因为不能很直观地看到汉字。
加上这一段就好了：
for item in l: print item
最后附上代码：

#-*- coding: utf-8 -*-

import urllib2import lxmlfrom lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")raw_html = r.read()decode_html = raw_html.decode("utf-8")dom_html = etree.HTML(decode_html)title_list = dom_html.xpath("//div[@id='content']//a//@title")for item in title_list:        print item

这个代码没有真正实现只抓贴子标题的功能，抓的内容超出了贴子标题的范围。还需要优化一下才可以的。

try_baidu_liyi.png

阅读全文

0 0