python网络爬虫-通过互联网采集

来源：互联网发布：countdown软件怎么用编辑：程序博客网时间：2024/06/05 05:53

在你写爬虫随意跟随外链跳转之前，请问自己几个问题：

（1）我们要收集哪些数据？这些数据可以通过采集几个已经确定的网站（永远是最简单的做法）完成吗？或者我的爬虫需要发现那些我可能不知道的网站。

（2）当我的爬虫到了某个网站，它是立即顺着下一个出站链接跳到一个新网站，还是在网站上呆一会，深入采集网站的内容?

（3）如果我的网络爬虫引起了某个网站网管的怀疑，我如何避免法律责任？

几个灵活的Python函数组合起来就可以实现不同类型的网络爬虫。用不超过50行代码就可以轻松写出来：

from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport datetimeimport randompages=set()random.seed(datetime.datetime.now())#获取页面所有内链的列表def getInternalLinks(bsObj,includeUrl):    internalLinks=[]    #找出所有以“/”开头的链接    for link in bsObj.findAll("a",href=re.compile("^(/|.*"+includeUrl+")")):        if link.attrs['href'] is not None:            if link.attrs['href'] not in internalLinks:                internalLinks.append(link.attrs['href'])    return internalLinks#获取页面所有外链的列表def getExternalLinks(bsObj,excludeUrl):    externalLinks=[]    #找出所有以“/”开头的链接    for link in bsObj.findAll("a",href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")):        if link.attrs['href'] is not None:            if link.attrs['href'] not in externalLinks:                externalLinks.append(link.attrs['href'])    return externalLinksdef splitAddress(address):    addressParts=address.replace("http://","").split("/")    return addressPartsdef getRandomExternalLinks(startingPage):    html=urlopen(startingPage)    bsObj=BeautifulSoup(html,"html.parser")    externalLinks=getExternalLinks(bsObj,splitAddress(startingPage)[0])    if len(externalLinks) == 0:        internalLinks=getInternalLinks(startingPage)        return getNextExternalLink(internalLinks[random.randint(0,len(internalLinks)-1)])    else:        return externalLinks[random.randint(0,len(externalLinks)-1)]def followExternalOnly(startingSite):    extenalLink=getRandomExternalLink("http://oreilly.com")    print("随机外链是："+externalLink)    followExternalOnly(externalLink)followExternalOnly("http://oreilly.com")

网站首页上并不能保证一直能发现外链，这是为了能够发现外链，就需要一种类似前面案例中使用的采集方法，即递归地深入一个网站直到找到一个外链才停止。下图是从互联网上不同的网站采集外链的程序流程图

把任务分解为像“获取页面上所有外链“这样的小函数是不错的做法，以后可以方便地修改代码以满足另一个采集任务的需求。例如，如果我们的目标是采集一个网站所有的外链，并且记录每一个外链，我们可以增加下面的函数：

#收集网站上发现的所有外链列表allExtLinks=set()allIntLinks=set()def getAllExternalLinks(siteUrl):     html=urlopen(siteurl)     bsObj=BeautifulSoup(html,"html.parser")     internalLinks=getInternalLinks(bsObj,splitAddress(siteUrl)[0])      externalLinks=getExternalLinks(bsObj,splitAddress(siteUrl)[0])      for link in externalLinks:           allExtLinks.add(link)           print(link)      for link in internalLinks:           if link not in allIntLinks:                print("即将获取连接的URL是"+link)                allIntLinks.add(link)                getExternalLinks(link)getAllExternalLinks("http://oreilly.com")

这段程序可以看做两个循环--一个收集内链，一个是收集外链--然后彼此连接起来工作，程序流程图如下：

阅读全文

2 0