【整理】python 3.x爬虫

来源：互联网发布：易语言统计成绩源码编辑：程序博客网时间：2024/04/20 13:10

主要内容来源于极客学院

利用requests模块构建
import requests

在requests模块中有两个函数，一个get，获取数据，一个post，提交表单。

html = requests.get(’ #url# ‘, headers) # 发送请求,headers用于模仿浏览器。获取header步骤：打开一个网址，审查元素，network，找到请求头 ‘User-Agent…’，复制
html.encoding = ‘utf-8’ #重新编码
webpage = html.text #读取网页内容，转化为text.

浏览web内容，总结目标的展示规律，然后用正则表达式匹配，用re模块的功能获取

import re
aim_ text = re.findall(’ xxxxxx_(.*?)xxx‘, webpage, re.S)

加载re模块后，一般有三种方式查找内容，re.findall, re.search, re.sub .
re.findall 匹配所有符合规律的内容，返回包含结果的列表
re.search 匹配并提取第一个符合规律的内容，返回一个正则表达式对象
re.sub 替换符合规律的内容，返回替换的值

常用正则表达式：
. : 匹配任意字符，换行符\n除外（在上面的re.findall语句中的re.S使得 . 可以匹配换行符）
* ：匹配前一个字符0次或无限次
？：匹配前一个字符0次或1次
.* : 贪心算法，尽可能多的匹配，直到遇到\n符
.*?：非贪心算法
（）：括号内的数据作为结果返回
\d ：匹配数字
\D ：匹配任意非数字

0 0