python多线程爬虫学习--去除html的标签

来源:互联网 发布:帝国cms怎么建站 编辑:程序博客网 时间:2024/06/05 03:04
import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html  = page.read()pattern = re.compile(r'<[^>]+>', re.S)result = pattern.sub('', html)print result

re.compile返回的是一个正则的表达的的样式,后面会根据这个样式进行去除
关键地带在"r'<[^>]+>'",这个是表示以'<'开始的,'[^>]'匹配除去'>'符号的所有其他符号,'+'表示出现次数为1次或者无限次。
原创粉丝点击