【整理】python 3.x爬虫
来源:互联网 发布:易语言统计成绩源码 编辑:程序博客网 时间:2024/04/20 13:10
主要内容来源于极客学院
利用requests模块构建
import requests
在requests模块中有两个函数,一个get,获取数据,一个post,提交表单。
html = requests.get(’ #url# ‘, headers) # 发送请求,headers用于模仿浏览器。获取header步骤:打开一个网址,审查元素,network,找到请求头 ‘User-Agent…’,复制
html.encoding = ‘utf-8’ #重新编码
webpage = html.text #读取网页内容,转化为text.
浏览web内容,总结目标的展示规律,然后用正则表达式匹配,用re模块的功能获取
import re
aim_ text = re.findall(’ xxxxxx_(.*?)xxx‘, webpage, re.S)
加载re模块后,一般有三种方式查找内容,re.findall, re.search, re.sub .
re.findall 匹配所有符合规律的内容,返回包含结果的列表
re.search 匹配并提取第一个符合规律的内容,返回一个正则表达式对象
re.sub 替换符合规律的内容,返回替换的值
常用正则表达式:
. : 匹配任意字符,换行符\n除外 (在上面的re.findall语句中的re.S使得 . 可以匹配换行符)
* :匹配前一个字符0次或无限次
?:匹配前一个字符0次或1次
.* : 贪心算法,尽可能多的匹配,直到遇到\n符
.*?:非贪心算法
():括号内的数据作为结果返回
\d : 匹配数字
\D :匹配任意非数字
- 【整理】python 3.x爬虫
- python爬虫资料整理
- Python爬虫项目整理
- Python爬虫入门整理
- python爬虫基础知识整理
- Python 3.x爬虫技巧总结
- python 3.x网络爬虫 下载图片
- Python 3.x爬虫技巧总结
- Python爬虫整理(一)
- Python爬虫整理(二)
- Python|爬虫学习资料整理
- Python 爬虫资源包整理
- Python爬虫(1),Python3.x
- Python爬虫(2),Python3.x
- Python爬虫(3),Python3.x
- python网络爬虫实战--重点整理
- 【icourse163】学习python爬虫的代码整理
- 整理第一个python爬虫的思路
- 有道云笔记导入印象笔记,最简单方法
- spark学习笔记
- UIUITextView设置类似于UITextField的placeholder
- 数据分类:决策树Decision Tree
- 代码规范工具-Checkstyle使用手册
- 【整理】python 3.x爬虫
- 如何禁止App在后台运行以及如何保存和恢复App的状态
- Android官方API Demo学习之联系人获取
- LeetCode[Array]---- 4Sum
- iOS应用跳转问题之:应用跳转
- 谈需求分析工作
- 文字生成二维码
- 【QT】:QT实现连接opencv,版本为2.3.10
- LeetCode 190. Reverse Bits