第四个解析HTML文件的Python程序
来源:互联网 发布:mac jdk降级 编辑:程序博客网 时间:2024/05/22 17:36
#-*-coding:utf-8-*-from HTMLParser import HTMLParserfrom htmlentitydefs import entitydefsimport sysclass TitleParser(HTMLParser): def __init__(self): self.title = '' self.readingtitle = 0 HTMLParser.__init__(self) def handle_starttag(self, tag, attrs): if tag == 'title': self.readingtitle = 1 def handle_data(self, data): if self.readingtitle: self.title += data def handle_endtag(self, tag): if tag == 'title': self.readingtitle = 0; def handle_entityref(self, name): #& 是实体,没有这个函数结果不显示& if entitydefs.has_key(name):#entitydefs函数能检查是否是实体 self.handle_data(entitydefs[name]) else: self.handle_data('&' + name + ';') def gettitle(self): return self.titlefileHandle = open('./c.html')titleParser = TitleParser()titleParser.feed(fileHandle.read())print 'title is :', titleParser.gettitle()fileHandle.close()