Python3 BeautifulSoup4结合urllib简单使用
来源:互联网 发布:java奇数偶数的和 编辑:程序博客网 时间:2024/05/18 18:18
1、使用urllib下载网页
2、构造BeautifulSoup对象
3、剖析文档
代码示例:【需要注意import模块版本的区别】
import urllib.requestfrom bs4 import BeautifulSoupimport redef getgxnu(): url="http://www.gxnu.edu.cn/default.html" data=urllib.request.urlopen(url).read() page_data=data.decode('GBK') '''print(page_data)''' soup=BeautifulSoup(page_data) #for link in soup.findAll('a',target='_self'):#get all links of gxnu index # print(link) for link in soup.findAll('a',href=re.compile('http://\\S+/type/\\d+.html')):#使用正则表达式 print(link['href'],link.contents) #函数调用getgxnu()
输出结果:
>>> http://www.gxnu.edu.cn/type/010400000102.html ['\n', <span>学校概况</span>]http://www.gxnu.edu.cn//type/010400000102.html ['学校简介']http://www.gxnu.edu.cn/type/01040000010202.html ['学校沿革']http://www.gxnu.edu.cn/type/01040000010203.html ['学校领导']http://www.gxnu.edu.cn/type/01040000010204.html ['校园风光']http://www.gxnu.edu.cn/type/01040000010205.html ['校园地图']http://www.gxnu.edu.cn/type/01040000010206.html ['校歌 校训 校徽']http://www.gxnu.edu.cn/type/01040000010207.html ['学校视觉形象识别系统']http://www.gxnu.edu.cn/type/01040000010208.html ['校史资料']http://www.gxnu.edu.cn/type/010400000103.html ['\n', <span>机构设置</span>]http://www.gxnu.edu.cn/type/010400000103.html ['教学单位']http://www.gxnu.edu.cn/type/010400000103.html ['管理部门']http://www.gxnu.edu.cn/type/010400000103.html ['业务部门']http://www.gxnu.edu.cn/type/010400000103.html ['附属单位']http://www.gxnu.edu.cn/type/010400000104.html ['\n', <span>学术研究</span>]http://www.gxnu.edu.cn/type/01040000010401.html ['科研管理']http://www.gxnu.edu.cn/type/01040000010402.html ['科研机构']http://www.gxnu.edu.cn/type/01040000010403.html ['重点学科']http://www.gxnu.edu.cn/type/01040000010404.html ['重点实验室']http://www.gxnu.edu.cn/type/01040000010405.html ['学术刊物']http://www.gxnu.edu.cn/type/010400000105.html ['\n', <span>人才队伍</span>]http://www.gxnu.edu.cn/type/010400000106.html ['\n', <span>招生就业</span>]http://www.gxnu.edu.cn/type/01040000010601.html ['招生信息']http://www.gxnu.edu.cn/type/01040000010602.html ['就业信息']http://www.gxnu.edu.cn/type/01040000010603.html ['就业指导']http://www.gxnu.edu.cn/type/010400000107.html ['\n', <span>图书档案</span>]http://www.gxnu.edu.cn/type/01040000010801.html ['\n', <span>公共服务</span>]http://www.gxnu.edu.cn/type/01040000010801.html ['教学服务']http://www.gxnu.edu.cn/type/01040000010805.html ['其他']http://www.gxnu.edu.cn/type/010400000111.html ['\n', <span>校园文化</span>]http://www.gxnu.edu.cn/type/01040000011101.html ['学生社团']http://www.gxnu.edu.cn/type/010400000112.html ['\n', <span>ENGLISH</span>]>>>
0 0
- Python3 BeautifulSoup4结合urllib简单使用
- Python3 urllib模块使用
- python3 下载文件urllib使用
- python3 urllib使用debug输出
- Python3 中urllib的使用
- Python3: urllib.request 的使用
- Python3中urllib使用介绍
- Urllib.request用法简单介绍(Python3.3)
- BeautifulSoup4的安装和简单使用
- Python3安装BeautifulSoup4模块
- Python3 爬虫学习(一):urllib库的使用及简单的爬取
- python3.x 的urllib使用例子
- python3.x中urllib的使用
- python3.x 的urllib使用例子
- python3.x 中urllib的使用
- python3.x 的urllib使用例子
- python3使用urllib模块制作网络爬虫
- Python3学习笔记 urllib模块的使用
- ubuntu的apt-get时常用的一些源
- LIOP特征
- C陷阱篇之enum默认长度
- win8 开启网络共享给其他电脑【整理自网上】
- 传递哈希入侵技术
- Python3 BeautifulSoup4结合urllib简单使用
- C/C++各种数字和字符串之间的转换函数
- 中位数uva11300
- 桌面动画-雪花和兔子
- 【黑马程序员】java反射
- HTTP协议中用到的url,你知道多少
- windows7建立你wifi热点
- ubuntu下gedit默认编码设置
- 用 JavaScript 实现类似 Java 的 HashMap 对象