python抓取网页内容

来源:互联网 发布:江恩时间周期理论,知乎 编辑:程序博客网 时间:2024/05/16 18:51
# -*- coding: cp936 -*-import HTMLParserimport urllibimport sysurl = "http://www.xuxian.com/index.php"urlText = []class parseText(HTMLParser.HTMLParser):    def handle_data(self,data):        if data!='\n':            urlText.append(data)#创建HTML解析器的实例lParser = parseText()#把HTML文件传给解析器lParser.feed(urllib.urlopen(url).read())lParser.close()#写入文件fp = open("textData.txt","w")for item in urlText:    print item    fp.write(item)fp.close()
0 0
原创粉丝点击