Python3爬虫学习1:入门篇
来源:互联网 发布:腾讯企业邮箱添加域名 编辑:程序博客网 时间:2024/06/05 15:16
Python3爬虫学习
在网上看到大多数爬虫教程都是Python2的,但Python3才是未来的趋势,许多初学者看了Python2的教程学Python3的话很难适应过来,毕竟Python2.x和Python3.x还是有很多区别的,一个系统的学习方法和路线非常重要,因此我在联系了一段时间之后,想写一下自己的学习过程,分享一下自己的学习经验,顺便也锻炼一下自己。
一、入门篇
这里是Python3的官方技术文档,在这里需要着重说一下,语言的技术文档是用来查的,不是用来学习的,真的没必要把文档背下来,这样学习效率真的很低,不如片学边做,在实践中才会学到东西,不然即使你背会了文档,你仍然很难做出什么项目来,我当初就是在这上面,走了很多弯路,在这里推荐W3cscjool里面的教程非常不错,学习与实践相结合。
1. 少废话,先看东西
第一个例子:爬取知乎首页源码。
#-*-coding:utf-8 -*-import urllib.requesturl = "http://www.zhihu.com"page_info = urllib.request.urlopen(url).read()page_info = page_info.decode('utf-8')print(page_info)
运行结果:
运行之后,在IDLE shell里面知乎网站首页的源代码就会被读出来啦Blahblahblah~~~
爬虫定义:
网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本。
简介:
网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
爬虫流程:
①先由urllib的request打开Url得到网页html文档——②浏览器打开网页源代码分析元素节点——③通过Beautiful Soup(后面会讲到)或则正则表达式提取想要的数据——④存储数据到本地磁盘或数据库(抓取,分析,存储)
urllib和urllib2
python2.x里urllib2库,在python3.x里,urllib2改名为urllib,被分成一些子模块:urllib.request, urllib.parse和urllib.error。尽管函数名称大多数和原来一样,但是在用新的urllib库时需要注意哪些函数被移动到子模块里了。
urllib是python的标准库,包含了从网络请求数据,处理cookie,甚至改变像请求头和用户代理这些元数据的函数。
urlopen用来打开并读取一个从网络获取的远程对象。它可以轻松读取HTML文件、图像文件或其他任何文件流。
url = "http://www.zhihu.com"page_info = urllib.request.urlopen(url).read()
urllib.request是urllib的一个子模块,可以打开和处理一些复杂的网址
decode(‘utf-8’)用来将页面转换成utf-8的编码格式,否则会出现乱码
page_info = page_info.decode('utf-8')print(page_info)
urllib.request.urlopen()方法实现了打开url,并返回一个 http.client.HTTPResponse对象,通过http.client.HTTPResponse的read()方法,获得response body,转码最后通过print()打印出来.
- Python3爬虫学习1:入门篇
- Python3爬虫入门学习
- Python3.6 学习爬虫入门篇
- python3 爬虫-入门
- python3 爬虫技术入门
- python3 爬虫入门
- python3爬虫入门
- python3 [入门基础实战] 爬虫入门之xpath的学习
- python3 爬虫学习——1
- python3爬虫学习
- Python3简单爬虫学习
- python3爬虫基础学习
- python3爬虫学习
- Python3 爬虫快速入门攻略
- Python3 爬虫 1
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
- python3.x之爬虫学习
- CHAPTER 31. KICKSTART INSTALLATIONS
- Python3 configparse 读取cfg文件踩的小坑
- 神器PEview 妈妈再也不用担心我看dll和lib等库文件了
- NSIS 卸载、安装检测程序是否在运行
- java转换xml、list、map和json
- Python3爬虫学习1:入门篇
- 扫雷
- Spring
- HttpURLConnection 模拟登录方法 (带cookie 的Post/Get)外挂
- 【数字经济】我国驶上数字经济发展快车道
- 1.云翼计划 大学生成长计划,学生云服务器低至9.9元 2.爆款云服务器30元/1月 3.RDS 40.8元/1月 RDS管理数据 4.阿里云DDOS高仿IP 云盾高仿IP 5.云解析然域名解析更安全
- 【虚拟助理】AI迎来大众化应用元年,虚拟助理将普及
- thinkPHP5之比较标签和条件判断标签
- Notepad++使用技巧小结