python 爬虫小结

来源:互联网 发布:哪里可以购买淘宝账号 编辑:程序博客网 时间:2024/06/05 21:59

这几天在学习爬虫的编写,利用python开发,记录下自己的感受。

1,python语言很棒,首选!

python是个好东西,是一个开源工具,使用灵活方便,类似于matlab的语言风格,无需变量预定义和预声明,拿来就用!

自带常用的函数,也是直接调用。

熟悉matlab的m语言开发的,学习使用python几乎没有障碍。

但是在用数据类型时,特别注意列表和字符串,列表带[ ], 字符串为’ ‘,或" ",在使用属性的时候,这两者容易出错,

查找,匹配,方式不同。

重要的一点,python包含了全面的各类功能模块,如 numpy,matlibplot,urllib,。。。。。。,使用时,import 就行

from numpy import *

import numpy

或起别名,import numpy as np

第三,由于python本身是命令行,为了便于开发和调试,可以安装,ide环境,根据个人使用情况,推荐,Anaconda + Wing Ide,

这两个软件结合起来使用非常方便,Anaconda集成了python的全部功能,配置完善,全部安装即可使用。Anaconda自带有ide环境

没有过。但是建议使用wing ide更好,功能更全,自带智能功能,调试方便,可以类似vs的断点调试,内存查看等,非常强大,熟悉

vs操作,wing ide用起来不陌生。


2,爬虫

爬虫实质就是自动浏览网页功能!网络浏览器是通过网址,获取网页内容,并将内容按照网页本来的样式在客户端显示出来。

爬虫也是链接网址,获取网页上的内容,并将内容感兴趣的部分筛选保留,其他的信息丢弃。

因此,爬虫基本功能包含三个主要部分:

1),根据链接登录;(模拟浏览器)

不同的网站链接方式不同,如,直接链接、用户名登录、cookie登录等等,需要根据网站的特点,选择不同链接方式

2),获取网页内容,并筛选,获取需要的信息;(根据需要选择)

一般来说,是获得网页的html内容,利用html的标签和属性,进行内容筛选,如<a>标签为链接,<p>标签为段落,

<img>标签为图像。。。,属性”href“为链接网址url,"src"为图片等的源地址

信息筛选一个好用的工具是BeautifuSoup,可以结合正则表达式,能完成所有的筛选。

筛选规则设置过粗,会产生大量的冗余信息;设置过细,会漏掉有用信息。必须仔细设置!

不同的网址,不同的需求,其筛选规则不同,视需求而定!

3),对筛选得到的信息进行加工处理。

包含对信息的排序、存储,再加工等,是爬虫的最终目标和目的。

所以爬虫的基本程序框架:

#-*- coding:utf-8 -*-

# 导入需要的功能模块
import urllib
import urllib2
from bs4 import BeautifulSoup

#1, 链接网页
url='http://www.baidu.com'
page=urllib.urlopen(url)
html=page.read() #获取网页内容,html


#2,标签筛选
object_bs=BeautifulSoup(html,'lxml')
items=object_bs.find_all('div',{'class':'xxxx'})#标签筛选


#3,处理筛选信息
for item in items:
    # 处理相应的信息


处理中文是特别主要字符编码,这也是容易出错的地方





原创粉丝点击