python 爬虫小结
来源:互联网 发布:哪里可以购买淘宝账号 编辑:程序博客网 时间:2024/06/05 21:59
这几天在学习爬虫的编写,利用python开发,记录下自己的感受。
1,python语言很棒,首选!
python是个好东西,是一个开源工具,使用灵活方便,类似于matlab的语言风格,无需变量预定义和预声明,拿来就用!
自带常用的函数,也是直接调用。
熟悉matlab的m语言开发的,学习使用python几乎没有障碍。
但是在用数据类型时,特别注意列表和字符串,列表带[ ], 字符串为’ ‘,或" ",在使用属性的时候,这两者容易出错,
查找,匹配,方式不同。
重要的一点,python包含了全面的各类功能模块,如 numpy,matlibplot,urllib,。。。。。。,使用时,import 就行
from numpy import *
import numpy
或起别名,import numpy as np
第三,由于python本身是命令行,为了便于开发和调试,可以安装,ide环境,根据个人使用情况,推荐,Anaconda + Wing Ide,
这两个软件结合起来使用非常方便,Anaconda集成了python的全部功能,配置完善,全部安装即可使用。Anaconda自带有ide环境
没有过。但是建议使用wing ide更好,功能更全,自带智能功能,调试方便,可以类似vs的断点调试,内存查看等,非常强大,熟悉
vs操作,wing ide用起来不陌生。
2,爬虫
爬虫实质就是自动浏览网页功能!网络浏览器是通过网址,获取网页内容,并将内容按照网页本来的样式在客户端显示出来。
爬虫也是链接网址,获取网页上的内容,并将内容感兴趣的部分筛选保留,其他的信息丢弃。
因此,爬虫基本功能包含三个主要部分:
1),根据链接登录;(模拟浏览器)
不同的网站链接方式不同,如,直接链接、用户名登录、cookie登录等等,需要根据网站的特点,选择不同链接方式
2),获取网页内容,并筛选,获取需要的信息;(根据需要选择)
一般来说,是获得网页的html内容,利用html的标签和属性,进行内容筛选,如<a>标签为链接,<p>标签为段落,
<img>标签为图像。。。,属性”href“为链接网址url,"src"为图片等的源地址
信息筛选一个好用的工具是BeautifuSoup,可以结合正则表达式,能完成所有的筛选。
筛选规则设置过粗,会产生大量的冗余信息;设置过细,会漏掉有用信息。必须仔细设置!
不同的网址,不同的需求,其筛选规则不同,视需求而定!
3),对筛选得到的信息进行加工处理。
包含对信息的排序、存储,再加工等,是爬虫的最终目标和目的。
所以爬虫的基本程序框架:
#-*- coding:utf-8 -*-
# 导入需要的功能模块
import urllib
import urllib2
from bs4 import BeautifulSoup
#1, 链接网页
url='http://www.baidu.com'
page=urllib.urlopen(url)
html=page.read() #获取网页内容,html
#2,标签筛选
object_bs=BeautifulSoup(html,'lxml')
items=object_bs.find_all('div',{'class':'xxxx'})#标签筛选
#3,处理筛选信息
for item in items:
# 处理相应的信息
处理中文是特别主要字符编码,这也是容易出错的地方
- 【Python】爬虫小结
- python爬虫方法小结
- 【Python】爬虫小结
- python爬虫小结
- Python爬虫爬取知乎小结
- Python爬虫爬取知乎小结
- Python爬虫爬取知乎小结
- python爬虫知识小结
- python 爬虫小结
- python爬虫模块小结
- Python爬虫爬取知乎小结
- Python爬虫小结之Selenium
- Python: 爬虫方法小结[待更新!!!]
- python爬虫-->爬虫基础
- [爬虫] Python爬虫技巧
- Python爬虫
- python 爬虫
- python 爬虫
- js中检测用了哪一种浏览器(读书知识总结)
- 【ironic 源码分析】task_manager 源码分析
- 大神帮忙优化一下
- Linux-查看命令文件是否被修改
- jquery使用ajax
- python 爬虫小结
- 你该关注“硬技术”还是“大道理”呢?
- mybatis查询,返回类型为HashMap,字段为null时没返回
- form提交方式Get与Post详解
- guangbo
- SSL1338 人员分配
- linux学习 pxe安装系统
- Form表单提交数据的几种方式
- 《道德经》第三十八章