定向网页爬取
来源:互联网 发布:北京java培训中心 编辑:程序博客网 时间:2024/05/17 06:28
#coding=utf-8import requestsfrom bs4 import BeautifulSoupimport bs4import sysreload(sys)sys.setdefaultencoding( "utf-8" )def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return ""def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find('tbody').children: if isinstance(tr, bs4.element.Tag): tds = tr('td') ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num): tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}" print(tplt.format("排名", "学校名称", "总分", chr(12288))) for i in range(num): u = ulist[i] print(tplt.format(u[0], u[1], u[2], chr(12288)))def main(): uinfo = [] url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText(url) fillUnivList(uinfo, html) printUnivList(uinfo, 20) # 20 univsmain()
阅读全文
0 0
- 定向网页爬取
- 定向爬虫:动态加载网页的爬取
- 淘宝搜索定向爬取
- 爬虫的定向爬取
- 网页爬取
- php爬取网页
- 爬取网页图片
- 爬取网页内容
- httpclient爬取网页
- 爬取网页图片
- 爬取Ajax网页
- python爬取网页
- Python 网页爬取
- python爬虫定向爬取中国大学排名
- 多账号定向网站爬取关键技术
- 中国大学排名定向爬取实例
- Python的定向爬取实例
- HttpClient爬取网页源代码
- 关于集合
- idea+gradle+ssm框架搭建过程
- 使用Filter过滤器,控制不能直接访问JSP文件
- php 设计模式之 单列模式
- C#Web项目中导出数据为Excel
- 定向网页爬取
- Canvas学习笔记(一)线条和圆弧
- linux:ls、ls -l、ls -al区别
- android ScrollView 滚动到顶部
- gcc预处理阶段
- Hibernate配置文件与映射文件详解
- The model backing the 'XXX' context has changed 错误
- 前置和后置++
- Eclipse项目上传码云