爬虫感悟1

来源：互联网发布：竞价网站数据库编辑：程序博客网时间：2024/06/08 13:36

import requestsfrom bs4 import BeautifulSoupdef getHTMLText(url):    r = requests.get(url)    r.raise_for_status()    r.encoding = r.apparent_encoding    return r.textdef getUnivList(HTML):    soup = BeautifulSoup(HTML,'html.parser')    for i in soup.find_all('span'):        print (i.get_text(strip=True))def main():  url = 'https://www.qiushibaike.com/hot/page/2/'  HTML = getHTMLText(url)  getUnivList(HTML)main()

这个小爬虫用到了requests和bs4库

r.raise_for_status()用于检验是否成功的获得了页面内容

r.encoding 是requests库读取页面内容开头得出的编码，r.apparent_encoding是读取全文的编码

get_text()得出<span>下的所用文本内容

strip=True 用于去点开头和结尾的空格

阅读全文

0 0

爬虫感悟1
爬虫感悟2
爬虫感悟3
淘宝、天猫爬虫感悟
感悟1
感悟1
感悟1
感悟1
感悟1
感悟1
<感悟1>
爬虫1
爬虫1
WPF感悟（1）
学习感悟1
读书感悟1
菜根谭--读书感悟1
实习感悟1
[题解] P1955 程序自动分析（并查集+哈希表）
【Leetcode-Medium-94】Binary Tree Inorder Traversal
sql-server基础三（select 、update、insert，delete）
HDU 2052 Picture(玩点不一样的)
如何测试一支笔
爬虫感悟1
文件对比工具
作业.分别用while和for写出1+1/2！+1/3！.....的前20项和
搜索算法-顺序查找和二分查找
python中的socketserver
【ubuntu】配置固定ip
Spring DAO
IntelliJ IDEA的jsp中内置对象（out、request等）无法被解析的解决办法
MySQL误删除文件后，如何恢复