网络爬虫学习(一)

来源:互联网 发布:外卖系统源码 编辑:程序博客网 时间:2024/04/29 22:16

网络爬虫学习(一)

1、非结构化数据

没有固定的数据格式,如网页资料。必须透过ETL(Extract,Transormation,Loading)工具将数据转化为结构化数据才能取用。

(1)数据抽取、转换、存储(Data ETL)


(2)网络爬虫架构


2、使用开发人员工具

在网页上点击右键--->检测

以新浪网站为例:


刷新后的页面如下图所示


通过查看“Doc”对应的链接如china/中的内容是否和网页中内容一致。


概括为:



下面在Windows进行安装配置,首先打开命令行工具

安装过程如下:

(1)pip install requests


(2)pip install BeautifulSoup4


(3)安装notebook

命令:pip install jupyter

安装完成后,使用命令:jupyter  notebook来启动。会打开如下的页面,它是一个本地的。


其开启方法是选择new--->python2(电脑上安装的是python2.7.x)


新建完成后,显示如下,即可在其中进行编写。


3、撰写第一只网络爬虫



(1)代码编写

代码:

import requests
res=requests.get('http://news.sina.com.cn/china/')#从上图中Headers中的Request Method可知其是GET方法
res.encoding='utf-8'#使用utf-8进行编码显示才不会乱码
print (res.text)#将内容显示


(2)用BeautifulSoup 剖析网页元素


BeautifulSoup范例

将网页读进BeautifulSoup中


from bs4 import BeautifulSouphtml_sample=' \<html> \<body> \<h1 id="title"> Hello World</h1> \<a href="#" class="link">This is link1</a> \<a href="# link2" class="link"> This is link2</a> \</body> \</html>'
soup=BeautifulSoup(html_sample,'html.parser')
print (soup.text)


运行后,报错


好多人都是因为python的问题。后面下载安装了Anaconda的python3.6版本。之前别人也讲用普通的python可能出现错误比较多,建议安装Anaconda的python版本。

(安装参考另一篇博客:Windows下安装Anaconda和python)

后面选择python3


然后,粘贴进代码,运行即可正常。




0 0
原创粉丝点击