python试爬李毅吧贴子标题,爬虫最初级
来源:互联网 发布:苹果手机变音软件 编辑:程序博客网 时间:2024/06/09 16:45
注:以下所有python代码均运行于2.7.0
最近想抓点数据存起来,开始捣鼓python。爬虫技术以前没接触过,这一回就当练手,从零开始,从最原始的方式开始。先定个小目标,抓一下著名的“李毅吧”的一些贴子标题。
要爬数据,第一步肯定是网络请求,在这里主要是指get/post请求。第二步是对返回的html进行解析。第三步是从解析后的DOM树里取我们想要的东西。
在这些步骤进行之前,要先安装lxml,这个用pip install lxml就可以了。
第一步,使用urllib2,先把李毅吧的url请求一下。百度目前使用的是https,这个没关系。https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85/
然后打开命令窗口,python。let's go。import urllib2from lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")p = r.read()
好了,是不是代码很简短,我们第一步就完成了。
第二步,要引入lxml,来解析取到的html文件。解析前肯定是要用开发者工具先分析一下html源码的,要不然怎么找到规律去匹配我们想要的内容呢。用开发者工具定位到贴吧的贴子都是位于一个div里面,这个div的id是content,class也是content。每个贴子的标题都是一个超链接,标题内容放在这个超链接的title里。
简单的介绍一下lxml的路径表达式://body/a[1] 取body下的第一个a元素//a[@href] 取所有拥有属性名为href的a元素//a[@href='img.html'] 取所有htre属性为img.html的a元素根据前面的分析,要取到贴子的标题,需要这么写//div[@id='content']//a//@title
下面开始解析:e = etree.HTML(decode_html)l = e.xpath("//div[@id='content']//a//@title")
第二步到此为止,通过xpath能匹配到所有的贴子标题。
第三步就是数据过滤、清洗、转换、存储之类的工作了,没有什么通用性。因为l是一个列表,里面又存的是utf8,对于一些新手来说,可能很抓狂,因为不能很直观地看到汉字。
加上这一段就好了:for item in l: print item
最后附上代码:
#-*- coding: utf-8 -*-
import urllib2import lxmlfrom lxml import etreer = urllib2.urlopen("https://tieba.baidu.com/f?ie=utf-8&kw=%E6%9D%8E%E6%AF%85")raw_html = r.read()decode_html = raw_html.decode("utf-8")dom_html = etree.HTML(decode_html)title_list = dom_html.xpath("//div[@id='content']//a//@title")for item in title_list: print item
这个代码没有真正实现只抓贴子标题的功能,抓的内容超出了贴子标题的范围。还需要优化一下才可以的。
- python试爬李毅吧贴子标题,爬虫最初级
- Python初级简易爬虫
- python爬虫的初级入门
- 《python初级爬虫》(一)
- 《python初级爬虫》(二)
- Python初级爬虫(0)-爬虫原理
- Python最高效爬虫框架
- 最全Python爬虫总结
- 最简单的python爬虫
- python最简单的爬虫
- 最简单的python 爬虫
- python爬虫百度贴吧标题数据
- python爬虫入门之爬取贴吧标题
- Python爬虫抓取贴吧所有标题
- python 3 最简单的小爬虫
- Python 3.0最简单的爬虫
- 最简单的Python网页爬虫
- Python 3.0最简单的爬虫
- HTTP/2服务端推送
- WPF DEV PieSeries2D扇形标识线变长充满
- HDU 2087 剪花布条【最长不重复子串】【KMP】【水题】【模板题】
- python居家旅行必备的pyenv,virtualenv
- HDU 6150 Vertex Cover 构造
- python试爬李毅吧贴子标题,爬虫最初级
- python使用scrapy爬表格,爬虫中级
- skynet源码分析(1)--模块加载
- org.springframework.beans.ConversionNotSupportedException异常解决方法
- skynet源码分析(2)--消息队列mq
- skynet源码分析(3)--消息名字和ID之handle
- Unix和Linux有什么区别? 通俗解释
- skynet源码分析(4)--monitor
- skynet源码分析(5)--消息机制之消息处理