python 一个HTML文件，找出正文和链接

来源：互联网发布：github 自定义域名编辑：程序博客网时间：2024/06/06 21:06

Python 练习册，每天一个小程序

第 0008 题：一个HTML文件，找出里面的正文。

第 0009 题：一个HTML文件，找出里面的链接。

0000-0010题链接

代码如下：

# coding=utf-8from bs4 import BeautifulSoupdef sechBodyUrl(path):    with open(path,encoding='utf-8') as fp:        text = BeautifulSoup(fp, 'lxml')        urls = text.findAll('a')        for u in urls:            print(u['href'])        content = text.get_text().strip('\n')    return contentsechBodyUrl('0007.html')#print(searchBody('0007.html'))

测试结果如下：
这里写图片描述

阅读全文

0 0

python 一个HTML文件，找出正文和链接
一个HTML文件，找出里面的链接
[python每日一练]--0008:找出html中正文
找出一个文件的所有硬链接
[python每日一练]--0009:找出html里的链接
一个单线程爬取英文维基百科正文与链接关系的Python爬虫
关于python开发web中插入本地图像和链接本地的html文件的方法
Boost－小试Regex库代码实现的功能：找出html文件中的所有链接
python 简单的网络爬虫 + html 正文抽取
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
[转]从HTML文件中抽取正文的简单方案
从HTML文件中抽取正文的简单方案
poj--1611--The Suspects
您的博文被删除了（1）
Win10安装silverlight5开发环境，以及坑
QML实现钟表效果
Linux查看物理CPU个数、核数、逻辑CPU个数
python 一个HTML文件，找出正文和链接
大数据生态系统基础：Apache Kafka基础（四）：最新kafka编程入门:Stream API
字符串大小写转换
Java基础类库
8.6 B
Rank HDU
GC算法
HDU
JAVA笔记三：JAVA-SE下