网络爬虫学习（一）

来源：互联网发布：外卖系统源码编辑：程序博客网时间：2024/04/29 22:16

网络爬虫学习（一）

1、非结构化数据

没有固定的数据格式，如网页资料。必须透过ETL(Extract,Transormation,Loading)工具将数据转化为结构化数据才能取用。

（1）数据抽取、转换、存储（Data ETL）

（2）网络爬虫架构

2、使用开发人员工具

在网页上点击右键--->检测

以新浪网站为例：

刷新后的页面如下图所示

通过查看“Doc”对应的链接如china/中的内容是否和网页中内容一致。

概括为：

下面在Windows进行安装配置，首先打开命令行工具

安装过程如下：

（1）pip install requests

（2）pip install BeautifulSoup4

（3）安装notebook

命令:pip install jupyter

安装完成后，使用命令：jupyter notebook来启动。会打开如下的页面，它是一个本地的。

其开启方法是选择new--->python2(电脑上安装的是python2.7.x)

新建完成后，显示如下，即可在其中进行编写。

3、撰写第一只网络爬虫

（1）代码编写

代码：

import requestsres=requests.get('http://news.sina.com.cn/china/')#从上图中Headers中的Request Method可知其是GET方法
res.encoding='utf-8'#使用utf-8进行编码显示才不会乱码
print (res.text)#将内容显示

（2）用BeautifulSoup 剖析网页元素

BeautifulSoup范例

将网页读进BeautifulSoup中

from bs4 import BeautifulSouphtml_sample=' \<html> \<body> \<h1 id="title"> Hello World</h1> \<a href="#" class="link">This is link1</a> \<a href="# link2" class="link"> This is link2</a> \</body> \</html>'

soup=BeautifulSoup(html_sample,'html.parser')

print (soup.text)

运行后，报错

好多人都是因为python的问题。后面下载安装了Anaconda的python3.6版本。之前别人也讲用普通的python可能出现错误比较多，建议安装Anaconda的python版本。

（安装参考另一篇博客：Windows下安装Anaconda和python）

后面选择python3

然后，粘贴进代码，运行即可正常。

0 0