python多线程爬虫学习--去除html的标签

来源：互联网发布：帝国cms怎么建站编辑：程序博客网时间：2024/06/05 03:04

import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html  = page.read()pattern = re.compile(r'<[^>]+>', re.S)result = pattern.sub('', html)print result
re.compile返回的是一个正则的表达的的样式，后面会根据这个样式进行去除
关键地带在"r'<[^>]+>'",这个是表示以'<'开始的,'[^>]'匹配除去'>'符号的所有其他符号，'+'表示出现次数为1次或者无限次。

阅读全文

0 0

python多线程爬虫学习--去除html的标签
python去除html标签
python去除所有html标签的方法
python多线程爬虫学习--去除字符串中间空格
python 去除html标签函数
python 去除html标签的几种方法
python多线程爬虫学习--urllib的使用
去除所有的 html标签
去除所有的 html标签
Python:使用正则去除HTML标签
Python:使用正则去除HTML标签
python正则表达式去除html标签
python多线程爬虫学习--Queue
javascript去除html标签的替换类
ASP.NET 去除网页的html标签
java去除html标签的正则表达
PHP 去除多余的HTML标签
去除html标签的转义符
<8/15>集训日记
mybatis快速入门(一)
CentOS访问Windows共享文件夹的两种方法
android studio2.3.2增加jni
利用java 写XML 修改XML文件
python多线程爬虫学习--去除html的标签
hadoop map reduce高级
第四章变量作用域和内存问题（部分）
链表倒序打印
QT uint 转QString QString增加字符串
C. Mittens----构造+贪心
Bootstrap css学习笔记（三）——表单与按钮
Fatal error in launcher: Unable to create process using '"'pip导入package是错误
利用JMeter 的 BeanShell 测试SDK