Python基础学习-爬虫入门知识
来源:互联网 发布:华为手机删除所有数据 编辑:程序博客网 时间:2024/04/29 05:45
*----------------------------------------------------------------编程届菜鸟-------------------------------------------------------*
学习语言的最好办法,就是用起来~~~
最近开始学Python,决定学点爬虫的,动动手学得快!
Python爬虫入门(2):爬虫基础了解
- Python爬虫入门(1):综述
- Python爬虫入门(2):爬虫基础了解
- Python爬虫入门(3):Urllib库的基本使用
- Python爬虫入门(4):Urllib库的高级用法
- Python爬虫入门(5):URLError异常处理
- Python爬虫入门(6):Cookie的使用
- Python爬虫入门(7):正则表达式
- Python爬虫入门(8):Beautiful Soup的用法
1.什么是爬虫
爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。
比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。
2.浏览网页的过程
在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。
因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。
3.URL的含义
URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。
4. 环境的配置
学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了 PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE
下一节,我们就正式步入 Python 爬虫学习的殿堂了,小伙伴准备好了嘛?
- Python基础学习-爬虫入门知识
- 【Python爬虫】入门知识
- Python 爬虫学习 —— Scrapy 入门知识学习
- Python爬虫入门基础
- Python爬虫入门学习
- python爬虫基础学习
- python 爬虫基础学习
- python爬虫零基础入门
- Python爬虫入门:爬虫基础了解
- Python爬虫入门 | 3 爬虫必备Python知识
- Python爬虫入门学习--(单线程爬虫)
- Python 爬虫如何入门学习?
- Python基础学习----网页爬虫
- python爬虫基础学习-01
- python基础入门之简单爬虫编写
- Python爬虫一(入门综述、基础)
- python基础_Scrapy爬虫基础学习一
- Python爬虫入门二之爬虫基础了解
- 学习方法
- duilib 如果获取listui 当前选择的项GetCursel
- 用java解析xml
- ubuntu安装好之后的一二三(2)
- Linux_使用putty上传文件到linux系统
- Python基础学习-爬虫入门知识
- 绝不重新定义继承而来的缺省参数值--from Effective c++ item 37
- OC中NSString 的常用方法
- 使用Repeater控件实现数据绑定
- 南大软院大神养成计划--第二天学习CSS的基础归纳
- 基于Python的机器学习实战:AadBoost
- 和尚特烦恼1——是不是素数
- 狼性文化
- 有了这些,CSS3动画 is So Easy!