第四个解析HTML文件的Python程序

来源:互联网 发布:mac jdk降级 编辑:程序博客网 时间:2024/05/22 17:36
#-*-coding:utf-8-*-from HTMLParser import HTMLParserfrom htmlentitydefs import entitydefsimport sysclass TitleParser(HTMLParser):        def __init__(self):        self.title = ''        self.readingtitle = 0        HTMLParser.__init__(self)        def handle_starttag(self, tag, attrs):        if tag == 'title':            self.readingtitle = 1        def handle_data(self, data):        if self.readingtitle:            self.title += data            def handle_endtag(self, tag):        if tag == 'title':            self.readingtitle = 0;        def handle_entityref(self, name): #& 是实体,没有这个函数结果不显示&        if entitydefs.has_key(name):#entitydefs函数能检查是否是实体            self.handle_data(entitydefs[name])        else:            self.handle_data('&' + name + ';')                def gettitle(self):        return self.titlefileHandle = open('./c.html')titleParser = TitleParser()titleParser.feed(fileHandle.read())print 'title is :', titleParser.gettitle()fileHandle.close()

原创粉丝点击