python 一个HTML文件,找出正文和链接
来源:互联网 发布:github 自定义域名 编辑:程序博客网 时间:2024/06/06 21:06
Python 练习册,每天一个小程序
第 0008 题: 一个HTML文件,找出里面的正文。
第 0009 题: 一个HTML文件,找出里面的链接。
0000-0010题链接
代码如下:
# coding=utf-8from bs4 import BeautifulSoupdef sechBodyUrl(path): with open(path,encoding='utf-8') as fp: text = BeautifulSoup(fp, 'lxml') urls = text.findAll('a') for u in urls: print(u['href']) content = text.get_text().strip('\n') return contentsechBodyUrl('0007.html')#print(searchBody('0007.html'))
测试结果如下:
阅读全文
0 0
- python 一个HTML文件,找出正文和链接
- 一个HTML文件,找出里面的链接
- [python每日一练]--0008:找出html中正文
- 找出一个文件的所有硬链接
- [python每日一练]--0009:找出html里的链接
- 一个单线程爬取英文维基百科正文与链接关系的Python爬虫
- 关于python开发web中插入本地图像和链接本地的html文件的方法
- Boost-小试Regex库 代码实现的功能:找出html文件中的所有链接
- python 简单的网络爬虫 + html 正文抽取
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- [转]从HTML文件中抽取正文的简单方案
- 从HTML文件中抽取正文的简单方案
- poj--1611--The Suspects
- 您的博文被删除了(1)
- Win10安装silverlight5开发环境,以及坑
- QML实现钟表效果
- Linux查看物理CPU个数、核数、逻辑CPU个数
- python 一个HTML文件,找出正文和链接
- 大数据生态系统基础:Apache Kafka基础(四):最新kafka编程入门:Stream API
- 字符串大小写转换
- Java基础类库
- 8.6 B
- Rank HDU
- GC算法
- HDU
- JAVA笔记三:JAVA-SE下