网络爬虫学习(一)
来源:互联网 发布:外卖系统源码 编辑:程序博客网 时间:2024/04/29 22:16
网络爬虫学习(一)
1、非结构化数据
没有固定的数据格式,如网页资料。必须透过ETL(Extract,Transormation,Loading)工具将数据转化为结构化数据才能取用。
(1)数据抽取、转换、存储(Data ETL)
(2)网络爬虫架构
2、使用开发人员工具
在网页上点击右键--->检测
以新浪网站为例:
刷新后的页面如下图所示
通过查看“Doc”对应的链接如china/中的内容是否和网页中内容一致。
概括为:
下面在Windows进行安装配置,首先打开命令行工具
安装过程如下:
(1)pip install requests
(2)pip install BeautifulSoup4
(3)安装notebook
命令:pip install jupyter
安装完成后,使用命令:jupyter notebook来启动。会打开如下的页面,它是一个本地的。
其开启方法是选择new--->python2(电脑上安装的是python2.7.x)
新建完成后,显示如下,即可在其中进行编写。
3、撰写第一只网络爬虫
(1)代码编写
代码:
import requestsres=requests.get('http://news.sina.com.cn/china/')#从上图中Headers中的Request Method可知其是GET方法
res.encoding='utf-8'#使用utf-8进行编码显示才不会乱码
print (res.text)#将内容显示
(2)用BeautifulSoup 剖析网页元素
BeautifulSoup范例
将网页读进BeautifulSoup中
from bs4 import BeautifulSouphtml_sample=' \<html> \<body> \<h1 id="title"> Hello World</h1> \<a href="#" class="link">This is link1</a> \<a href="# link2" class="link"> This is link2</a> \</body> \</html>'
soup=BeautifulSoup(html_sample,'html.parser')
print (soup.text)
运行后,报错
好多人都是因为python的问题。后面下载安装了Anaconda的python3.6版本。之前别人也讲用普通的python可能出现错误比较多,建议安装Anaconda的python版本。
(安装参考另一篇博客:Windows下安装Anaconda和python)
后面选择python3
然后,粘贴进代码,运行即可正常。
0 0
- 网络爬虫学习(一)
- 网络爬虫学习一
- 学习python写网络爬虫(一)
- 学习Python之网络爬虫(一)
- Python 网络爬虫学习(一)
- Python网络爬虫学习笔记(一)
- 网络爬虫学习笔记(一)
- 【网络爬虫】【python】网络爬虫(一):python爬虫概述
- 网络爬虫学习笔记(一) 网络爬虫概述
- 我的Python入门学习(一):网络刷博器爬虫
- java网络爬虫学习记录(一)概述
- 学习笔记—Python网络爬虫(一)
- python网络爬虫(一)
- 网络爬虫基本原理(一)
- 网络爬虫基本原理(一)
- python网络爬虫(一)
- 网络爬虫基础(一)
- 网络爬虫篇(一)
- 排序算法(2)-希尔排序
- 找图片啊图标啊什么的
- 读写文件函数【模板】
- 使用idea开发web项目
- 慕课-程序设计与算法(大学先修课)-郭炜-第八九周练习题
- 网络爬虫学习(一)
- xcode 真机测试添加普通apple id时,“xxxx”is not on any development teams
- Java数组的简单使用
- 主流浏览器内核
- 人脸识别之DeepFace
- 通过RobotFrameWork+APPIUM对安卓APK进行自动化测试
- Ajax总结
- 16. 3Sum Closest Medium
- 2017.03.18【NOIP 普及组】模拟赛C组 蚂蚁 题解