python for android : BeautifulSoup 有 bug

来源:互联网 发布:网上值机软件 编辑:程序博客网 时间:2024/05/15 04:09

BeautifulSoup 善于网页数据分析 ,但是 python for android : BeautifulSoup 有 bug ,

text = h4.a.text 只能取得 None,因此我写了function: getText() 来fix this bug.

例如: 抓取CSDN极客头条内容  soup.py

import urllib2, refrom BeautifulSoup import BeautifulSoupimport sysreload(sys)sys.setdefaultencoding('utf-8')def getText(text):    begin = text.find('>',0)    if begin > -1:        begin += 1        end = text.find('</a>',begin)        if begin < end:            return text[begin:end].strip()        else:            return None    else:        return Nonepage = urllib2.urlopen("http://geek.csdn.net/new")soup = BeautifulSoup(page)for h4 in soup.findAll('h4'):    if h4.a is not None:        href = h4.a.get('href')        text = getText(str(h4.a))        print text        print hrefpage.close()

请参考:   http://www.crummy.com/software/BeautifulSoup/bs3/documentation.zh.html

0 0
原创粉丝点击