最好大学定向爬虫
来源:互联网 发布:博彦科技数据分析师 编辑:程序博客网 时间:2024/06/06 00:58
最好大学定向爬虫
刚刚写好的一篇博文莫名奇妙的没了,找不到了郁闷。。。。本来写完去吃饭,结果吃不成了。
不想说什么了
前提:
python的知识如果不了解,移步北理工嵩天python基础课程或者廖雪峰python基础课程。
说明:
这个爬虫是跟着北理工嵩天教授的课程写的,如果有解释不清楚的直接在慕课搜嵩天python爬虫。
=============================分割线===================================
思路:
1.从url中获取html2.从html中获取所需的信息3.把信息输出出来
由于博主太饿了,不写具体解释了,直接贴上代码:
#CrawUnivRankingA.pyimport requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding return r.text except: return ""def fillUnivList(ulist, html): soup = BeautifulSoup(html, "html.parser") for tr in soup.find('tbody').children: if isinstance(tr, bs4.element.Tag): tds = tr('td') ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num): print ("{:^10}\t{:^6}\t{:^10}".format("排名","学校","总分")) for i in range(num): u = ulist[i] print ("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))def main(): uinfo = [] url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html' html = getHTMLText (url) fillUnivList(uinfo, html) printUnivList(uinfo,40)main()
getHTMLText 用于获取HTML
fillUnivList 用于提取信息
printUnivList用于输出信息
不懂的可以问我,吃饭( o=^•ェ•)o ┏━┓!
阅读全文
0 0
- 最好大学定向爬虫
- 最好大学网python爬虫代码
- 如何做最好的定向爬虫架构
- 生活是最好的大学
- 定向网页爬虫经验总结
- python多线程定向爬虫
- [置顶]定向爬虫
- 淘宝商品价格定向爬虫
- 股票数据定向爬虫
- 齐齐哈尔大学刷卡系统爬虫
- 定向爬虫:中国大学排名定向爬虫(一)
- 爬虫的定向爬取
- 全球最好的大学各专业排名
- 世界上最好的大学是互联网
- 爬取"最好大学网站"大学排名
- 中国最好大学网爬取大学排名信息
- Python爬虫实战:2017中国最好大学排名
- python_爬虫大学排行的代码
- node.js健壮性问题及打印错误日志
- StringUtils方法全集介绍
- 新手之SSH框中strut2配置
- WKWebView 的使用
- butterknife 使用步骤
- 最好大学定向爬虫
- 求字符串中的最长不重复子串
- centos 编译sipp-3.5.1
- Objective
- smartupload实现上传下载
- java8 HashMap的底层实现
- Android辅助功能原理与基本使用详解-AccessibilityService
- iOS中Block使用注意点及常见问题浅析
- tbb安装与配置