欢迎使用CSDN-markdown编辑器

来源：互联网发布：牛顿迭代法c语言编程编辑：程序博客网时间：2024/05/17 01:31

代码块

代码块语法遵循标准markdown代码，例如：

@requires_authorization#setup.py build#setup.py intallfrom bs4 import BeautifulSoupbs = BeautifulSoupdoc = [    '<html><head><title>Page title</title></head>',    '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.',    '<p id="secondpara" align="blah">This is paragraph <b>two</b>.',    '</html>']soup = bs(''.join(doc))#---import reimport urllibdef getHtml(url):    page = urllib.urlopen(url,proxies={'http': 'http://192.168.1.2:3128'})    html = page.read()    return htmldef getImg(html):    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    imglist = re.findall(imgre, html)    return imglistdef imgDownload(imglist):    x = 0    for imgurl in imglist:        urllib.urlretrieve(imgurl, '%s.jpg' % x)        x+=1        print '第', x, '张图片下载完成'html = getHtml('http://tieba.baidu.com/p/2460150866')print getImg(html)#---def getItemNum(url):        # 功能：获取一个卖家的所有商品数目        # 输入： 一个卖家的任意商品列表页面        # 输出： 卖家的所有商品数目         raw = getHtml(url)        p = re.compile(r'<span class="rcnt"\s{0,}>(.*)?</span>')        tmpNum = re.findall(p,raw)        return tmpNumstarttime = datetime.datetime.now()tmp = getItemNum(url)itemNum = int(tmp[0].replace(',', '')) endtime =datetime.datetime.now()print (endtime-starttime).seconds#===html = getHtml(url)soup = bs(html)soup.find(id='descItemNumber').string#----fid = open('fds.txt', 'r')lines = fid.readlines()  # 带/ndef getAddress(itemID):    try:        tmpUrl = 'http://www.ebay.com/itm/' + itemID        html = getHtml(tmpUrl)        soup = bs(html)        xx = soup.select('div.iti-eu-bld-gry ')        addr = bs(''.join(xx[0]))        return addr    except Exception, ex:        print ex        print '没有找到地址'        return None

0 0