简单的实现爬虫爬取网页文本和图片
来源:互联网 发布:三三地方门户系统源码 编辑:程序博客网 时间:2024/05/22 17:27
一 基本概念
在Python中,我们使用urllib2这个组件来抓取网页。urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。它以urlopen函数的形式提供了一个非常简单的接口。
二 HTML 的组成部分
(1)DTD头,用于告诉浏览器用什么语言来解析当前页面。
(2) Head 告诉浏览器一些相关的信息。
(3) Body 包含的是给人看的数据。
按F12,显示网页代码信息
三 用python抓取图片源代码
#coding=utf-8import urllibimport redef getHtml(url): page = urllib.urlopen(url)#打开网址 html = page.read() #读取网页内容,保存到htlm中 return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext'#正则表达式 imgre = re.compile(reg) #把正则表达式编译成一个正则表达式对象. imglist = re.findall(imgre,html)#读取html 中包含 imgre(正则表达式)的数据 x = 0 for imgurl in imglist: urllib.urlretrieve(imgurl,'%s.jpg' % x)#直接将远程数据下载到本地 x+=1html = getHtml("http://tieba.baidu.com/p/2460150866")print getImg(html)
四 用python抓取网页的文字信息源代码
# coding=utf-8import urllib2import urllibimport reimport threadimport timefrom bs4 import BeautifulSoupurl="http://toutiao.sogou.com/?fr=qqxwtt"page = urllib.urlopen(url)#打开网址html = page.read() #读取网页内容,保存到htlm中bs0bj=BeautifulSoup(html) #创建一个beautifulsoup的类namelist=bs0bj.findAll("a")#通过标签筛选文字信息for name in namelist: print (name.get_text())
阅读全文
0 0
- 简单的实现爬虫爬取网页文本和图片
- 一个简单的网络爬虫---爬取网页中的图片
- 制作一个简单的网页爬虫爬取一张网页的特定图片
- Python爬虫实战(三):简单爬取网页图片
- python3爬虫爬取网页图片简单示例
- python爬虫----简单的图片爬取
- 爬虫爬虫学习: 爬取网页图片
- 【Python3.6爬虫学习记录】(一)爬取简单的静态网页图片
- 利用python对网页和图片的简单爬取
- 简单网络爬虫实现<爬取网页邮箱>
- 简单网络爬虫实现<爬取网页邮箱>
- 简单网络爬虫实现<爬取网页邮箱>
- 简单的爬取网页图片
- [python爬虫]如何爬取特定网页的图片
- 爬虫实例:爬取一个网页上的图片地址
- Python爬虫---爬取静态网页的图片
- python3 爬虫--网页图片爬取
- Python爬虫学习笔记(1):简单的图片爬取
- 文章标题
- Openstack安装Dashboard之后无法打开页面
- vue+axios 前端实现登录拦截(路由拦截、http拦截)
- 阅读收获——IT产业的六个规律
- 将cmd里创建的python虚拟环境应用于pycharm
- 简单的实现爬虫爬取网页文本和图片
- 直方图均衡化
- sts控制台输出tomcat启动后网址颜色为黑不为蓝
- ListView的优化
- AndroidStudio控制台搜索栏内输入中文变成方框解决
- C/C++训练1---最大公约数与最小公倍数
- get azure subscriptions‘ all stroages,containers and blobs by PowerShell
- 手机登录界面
- java 导出Excel文件