python网络爬虫-通过互联网采集
来源:互联网 发布:countdown软件 怎么用 编辑:程序博客网 时间:2024/06/05 05:53
在你写爬虫随意跟随外链跳转之前,请问自己几个问题:
(1)我们要收集哪些数据?这些数据可以通过采集几个已经确定的网站(永远是最简单的做法)完成吗?或者我的爬虫需要发现那些我可能不知道的网站。
(2)当我的爬虫到了某个网站,它是立即顺着下一个出站链接跳到一个新网站,还是在网站上呆一会,深入采集网站的内容?
(3)如果我的网络爬虫引起了某个网站网管的怀疑,我如何避免法律责任?
几个灵活的Python函数组合起来就可以实现不同类型的网络爬虫。用不超过50行代码就可以轻松写出来:
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport reimport datetimeimport randompages=set()random.seed(datetime.datetime.now())#获取页面所有内链的列表def getInternalLinks(bsObj,includeUrl): internalLinks=[] #找出所有以“/”开头的链接 for link in bsObj.findAll("a",href=re.compile("^(/|.*"+includeUrl+")")): if link.attrs['href'] is not None: if link.attrs['href'] not in internalLinks: internalLinks.append(link.attrs['href']) return internalLinks#获取页面所有外链的列表def getExternalLinks(bsObj,excludeUrl): externalLinks=[] #找出所有以“/”开头的链接 for link in bsObj.findAll("a",href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")): if link.attrs['href'] is not None: if link.attrs['href'] not in externalLinks: externalLinks.append(link.attrs['href']) return externalLinksdef splitAddress(address): addressParts=address.replace("http://","").split("/") return addressPartsdef getRandomExternalLinks(startingPage): html=urlopen(startingPage) bsObj=BeautifulSoup(html,"html.parser") externalLinks=getExternalLinks(bsObj,splitAddress(startingPage)[0]) if len(externalLinks) == 0: internalLinks=getInternalLinks(startingPage) return getNextExternalLink(internalLinks[random.randint(0,len(internalLinks)-1)]) else: return externalLinks[random.randint(0,len(externalLinks)-1)]def followExternalOnly(startingSite): extenalLink=getRandomExternalLink("http://oreilly.com") print("随机外链是:"+externalLink) followExternalOnly(externalLink)followExternalOnly("http://oreilly.com")
网站首页上并不能保证一直能发现外链,这是为了能够发现外链,就需要一种类似前面案例中使用的采集方法,即递归地深入一个网站直到找到一个外链才停止。下图是从互联网上不同的网站采集外链的程序流程图
把任务分解为像“获取页面上所有外链“这样的小函数是不错的做法,以后可以方便地修改代码以满足另一个采集任务的需求。例如,如果我们的目标是采集一个网站所有的外链,并且记录每一个外链,我们可以增加下面的函数:
#收集网站上发现的所有外链列表allExtLinks=set()allIntLinks=set()def getAllExternalLinks(siteUrl): html=urlopen(siteurl) bsObj=BeautifulSoup(html,"html.parser") internalLinks=getInternalLinks(bsObj,splitAddress(siteUrl)[0]) externalLinks=getExternalLinks(bsObj,splitAddress(siteUrl)[0]) for link in externalLinks: allExtLinks.add(link) print(link) for link in internalLinks: if link not in allIntLinks: print("即将获取连接的URL是"+link) allIntLinks.add(link) getExternalLinks(link)getAllExternalLinks("http://oreilly.com")这段程序可以看做两个循环--一个收集内链,一个是收集外链--然后彼此连接起来工作,程序流程图如下:
阅读全文
2 0
- python网络爬虫-通过互联网采集
- python网络数据采集学习范例-通过互联网采集
- Python网络数据采集-创建爬虫
- python网络爬虫-采集整个网站
- 【Python网络爬虫】python网络数据采集读书笔记(第一章)
- python网络爬虫-数据采集之遍历单个爬虫
- 爬虫--网络数据采集
- 跟着《Python网络数据采集》学爬虫1
- 跟着《Python网络数据采集》学爬虫2
- Python--通过XPath实现网络爬虫
- Python爬虫--访问互联网
- 【Python网络爬虫】python网络数据采集读书笔记(第二章)
- 【Python网络爬虫】python网络数据采集读书笔记(第三章)
- 网络爬虫采集数据几个问题
- python实现简易采集爬虫
- python实现简易采集爬虫
- Python爬虫小说采集程序
- python网络数据采集
- **A Cubic number and A Cubic Number**
- 【移动端】仿hover效果触发导航菜单展开
- 数据库索引之稠密索引和稀疏索引
- Android签名信息查看
- python的格式处理
- python网络爬虫-通过互联网采集
- 《机器学习实战》第十章错误总结
- 基于 WebBroker 的 CMS 源代码已经发布
- Java -- 集合List
- 浏览器获取cookie的两种方式
- 三种方法模拟实现strlen函数
- nginx配置跨域
- TCS3200 Color Sensor's directions for use [1.8]
- TensorFlow图像数据处理