爬虫感悟1
来源:互联网 发布:竞价网站数据库 编辑:程序博客网 时间:2024/06/08 13:36
import requestsfrom bs4 import BeautifulSoupdef getHTMLText(url): r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_encoding return r.textdef getUnivList(HTML): soup = BeautifulSoup(HTML,'html.parser') for i in soup.find_all('span'): print (i.get_text(strip=True))def main(): url = 'https://www.qiushibaike.com/hot/page/2/' HTML = getHTMLText(url) getUnivList(HTML)main()
这个小爬虫用到了requests和bs4库
r.raise_for_status()用于检验是否成功的获得了页面内容
r.encoding 是requests库读取页面内容开头得出的编码,r.apparent_encoding是读取全文的编码
get_text()得出<span>下的所用文本内容
strip=True 用于去点开头和结尾的空格
阅读全文
0 0
- 爬虫感悟1
- 爬虫感悟2
- 爬虫感悟3
- 淘宝、天猫爬虫感悟
- 感悟1
- 感悟1
- 感悟1
- 感悟1
- 感悟1
- 感悟1
- <感悟1>
- 爬虫1
- 爬虫1
- WPF感悟(1)
- 学习感悟1
- 读书感悟1
- 菜根谭--读书感悟1
- 实习感悟1
- [题解] P1955 程序自动分析 (并查集+哈希表)
- 【Leetcode-Medium-94】Binary Tree Inorder Traversal
- sql-server基础三(select 、update、insert,delete)
- HDU 2052 Picture(玩点不一样的)
- 如何测试一支笔
- 爬虫感悟1
- 文件对比工具
- 作业.分别用while和for写出1+1/2!+1/3!.....的前20项和
- 搜索算法-顺序查找和二分查找
- python中的socketserver
- 【ubuntu】配置固定ip
- Spring DAO
- IntelliJ IDEA的jsp中内置对象(out、request等)无法被解析的解决办法
- MySQL误删除文件后,如何恢复