python 爬虫小结

来源：互联网发布：哪里可以购买淘宝账号编辑：程序博客网时间：2024/06/05 21:59

这几天在学习爬虫的编写，利用python开发，记录下自己的感受。

1，python语言很棒，首选！

python是个好东西，是一个开源工具，使用灵活方便，类似于matlab的语言风格，无需变量预定义和预声明，拿来就用！

自带常用的函数，也是直接调用。

熟悉matlab的m语言开发的，学习使用python几乎没有障碍。

但是在用数据类型时，特别注意列表和字符串，列表带[ ], 字符串为’ ‘,或" "，在使用属性的时候，这两者容易出错，

查找，匹配，方式不同。

重要的一点，python包含了全面的各类功能模块，如 numpy，matlibplot，urllib，。。。。。。，使用时，import 就行

from numpy import *

import numpy

或起别名，import numpy as np

第三，由于python本身是命令行，为了便于开发和调试，可以安装，ide环境，根据个人使用情况，推荐，Anaconda + Wing Ide,

这两个软件结合起来使用非常方便，Anaconda集成了python的全部功能，配置完善，全部安装即可使用。Anaconda自带有ide环境

没有过。但是建议使用wing ide更好，功能更全，自带智能功能，调试方便，可以类似vs的断点调试，内存查看等，非常强大，熟悉

vs操作，wing ide用起来不陌生。

2，爬虫

爬虫实质就是自动浏览网页功能！网络浏览器是通过网址，获取网页内容，并将内容按照网页本来的样式在客户端显示出来。

爬虫也是链接网址，获取网页上的内容，并将内容感兴趣的部分筛选保留，其他的信息丢弃。

因此，爬虫基本功能包含三个主要部分：

1），根据链接登录；（模拟浏览器）

不同的网站链接方式不同，如，直接链接、用户名登录、cookie登录等等，需要根据网站的特点，选择不同链接方式

2），获取网页内容，并筛选，获取需要的信息；（根据需要选择）

一般来说，是获得网页的html内容，利用html的标签和属性，进行内容筛选，如<a>标签为链接，<p>标签为段落，

<img>标签为图像。。。，属性”href“为链接网址url，"src"为图片等的源地址

信息筛选一个好用的工具是BeautifuSoup，可以结合正则表达式，能完成所有的筛选。

筛选规则设置过粗，会产生大量的冗余信息；设置过细，会漏掉有用信息。必须仔细设置！

不同的网址，不同的需求，其筛选规则不同，视需求而定！

3），对筛选得到的信息进行加工处理。

包含对信息的排序、存储，再加工等，是爬虫的最终目标和目的。

所以爬虫的基本程序框架：

#-*- coding:utf-8 -*-

# 导入需要的功能模块
import urllib
import urllib2
from bs4 import BeautifulSoup

#1，链接网页
url='http://www.baidu.com'
page=urllib.urlopen(url)
html=page.read() #获取网页内容,html

#2，标签筛选
object_bs=BeautifulSoup(html,'lxml')
items=object_bs.find_all('div',{'class':'xxxx'})#标签筛选

#3,处理筛选信息
for item in items:
# 处理相应的信息

处理中文是特别主要字符编码，这也是容易出错的地方

阅读全文

0 0