Python爬虫系列博客

来源：互联网发布：网络摄像机价格编辑：程序博客网时间：2024/05/16 14:38

自己一直在做Python网络爬虫，在这一系列的博文中，我将分享自己在Python爬虫学习之路的一些笔记、一些总结、一些感悟。博主乃学生一枚，还请各位看官多多指教。

个人博客的地址是：www.line-coding.tech

Python爬虫基础-正则表达式与Http请求
网络爬虫又称为网络机器人，它可以按照程序设定的规则自动抓取网页上的信息。网络是信息的海洋，但是网络中的数据是零散的、无序的且存在着冗余，如何从复杂的网页代码中提取有用的信息便是爬虫需要解决的问题。Python语法简洁，代码风骚，数据的处理能力强，比如函数参数的打包解包，列表解析，矩阵处理，非常方便，所以Python非常适合做网络爬虫。我将在这里很大家分享我的一些网络爬虫小程序，让我们一起体验爬虫带来的乐趣吧！
Python爬虫利器—BeautifulSoup
数据抓取纯粹靠正则表达式会显得比较麻烦，代码写起来会比较复杂，还好有BeautifulSoup这个强大的工具，使得python数据爬取变得简单，这也正是python为什么如此强大的原因吧，太多太多强大的第三方库使得很多的开发变得简单而高效，下面就一起来了解一下BeautifulSoup吧。BeautifulSoup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用程序。
Python操作Mysql数据库
在正式开始Python网络爬虫实战之前，我们需要先来了解一下Python的一些基础知识，包括网络请求、数据存储以及异常处理等，这篇博客主要讲解Python的Mysql数据库操作，我们使用爬虫爬取下来的数据需要存储，而数据库就是常用的存储方式之一，所以熟练地掌握数据库操作对于网络爬虫的学习是很有必要的。
Python文件操作
上一篇博文中我们介绍了Python使用Mysql数据库进行数据存储，数据库存储的数据需要特定的工具进行打开，而普通的数据文件是一般的电脑都能打开进行查看的，因此数据库存储的通用性没有文件存储那么好，文件存储也是Python网络爬虫的常用存储方式之一，特别是csv文件，所以我们对于文件的输入输出流操作、缓存、基本的读写方式、文件迭代器等我们都需要有一些基本的了解，并熟练掌握文件的读写操作，为我们的爬虫实战打下坚实的基础。
Python Http网络请求
Python网络爬虫开发离不开Http网络请求，此前的几篇Python网络爬虫博客中，对网络爬虫已经有了一些基本的介绍，也使用了一些网络请求库，但是没有对Python网络请求做详细的说明，此篇博客将对Python的Http网络请求进行一个总结，通过列举不同的Http请求库的不同请求写法来熟悉Python的网络请求，从而有利于后续的网络爬虫开发。

后期将陆续更新，更多详情请移步：www.line-coding.tech

0 0