用正则表达式提取信息

来源：互联网发布：舒缦水暖床垫淘宝网编辑：程序博客网时间：2024/05/21 02:54

这里写图片描述

正则表达式，说白了就是用来匹配字符的，正则表达式是用来简洁表达一组字符串的表达式.
正则表通常被用来检索、替换那些符合某个模式(规则)的文本。
很多编程语言都支持正则表达式进行字符串操作。在代码中常简写为regex、regexp或RE。
比如Pythonz中就有一个叫：re　的正则表达式库，这是Python的标准库，安装Python后自带，使用时只需要

import re

我们可以通过requests获取网页的页面信息，但是其中的信息太过于杂乱，我们需要从中提取我们需要的信息，那么我们可以用Python的正则表达式库来提取我们需要的信息，比如说，我们想要从中提取”百度一下，你就知道”的中文字符，我们这样操作

这里写图片描述

这样我们就可以把html页面中的”百度一下，你就知道”的标签从复杂凌乱的信息中提取出来了，再经过一些处理就可以拿出来了

语法

那我们开始学习正则表达式的语法了　　以下是正则表达式的常用操作符：

. 　　　　表示任何单个字符[ ] 　　　字符集,对单个字符给出取值范围 　　　　　[abc]表示a、b、c,[a‐z]表示a到z单个字符[^ ] 　　非字符集,对单个字符给出排除范围 　　　　[^abc]表示非a或b或c的单个字符* 　　　　前一个字符0次或无限次扩展 　　　　　　　abc* 表示 ab、abc、abcc、abccc等+ 　　　　前一个字符1次或无限次扩展 　　　　　　　abc+ 表示 abc、abcc、abccc等? 　　　　前一个字符0次或1次扩展 　　　　　　　　abc? 表示 ab、abc| 　　　　左右表达式任意一个 　　　　　　　　　　　abc|def 表示 abc、def{m} 　　　扩展前一个字符m次 　　　　　　　　　　　ab{2}c表示abbc{m,n} 　　扩展前一个字符m至n次(含n) 　　　　　　ab{1,2}c表示abc、abbc^ 　　　　匹配字符串开头 　　　　　　　　　　　　^abc表示abc且在一个字符串的开头$　　　　 匹配字符串结尾 　　　　　　　　　　　　　abc$表示abc且在一个字符串的结尾( ) 　　　分组标记,内部只能使用 | 操作符 　　　　(abc)表示abc,(abc|def)表示abc、def\d 　　　数字,等价于[0‐9] \w 　　　单词字符,等价于[A‐Za‐z0‐9_]

这些都是非常常见的正则表达式操作符，记住了，大部分都能用了。

我们接下来看一下经典的正则表达式匹配实例

^[A‐Za‐z]+$ 　　　　　　　　　由26个字母组成的字符串^[A‐Za‐z0‐9]+$ 　　　　　　　由26个字母和数字组成的字符串^‐?\d+$ 　　　　　　　　　　　整数形式的字符串^[0‐9]*[1‐9][0‐9]*$ 　　　　正整数形式的字符串[1‐9]\d{5} 　　　　　　　　　中国境内邮政编码,6位[\u4e00‐\u9fa5] 　　　　　　匹配中文字符\d{3}‐\d{8}|\d{4}‐\d{7}　 　国内电话号码,010‐68913536

正则表达式库

上面我们说过，re是Python的内置库，不需要安装，直接导入即可

raw string类型(原生字符串类型)，也就是不包含对转义符再次转义的字符串
re库采用raw string类型表示正则表达式,表示为:　　　　　r’text’

re库的主要函数共有6个，分别是

re.search() 　　　　在一个字符串中搜索匹配正则表达式的第一个位置,返回match对象re.match() 　　　　　从一个字符串的开始位置起匹配正则表达式,返回match对象re.findall() 　　　　搜索字符串,以列表类型返回全部能匹配的子串re.split() 　　　　　将一个字符串按照正则表达式匹配结果进行分割,返回列表类型re.finditer() 　　　搜索字符串,返回一个匹配结果的迭代类型,每个迭代元素是match对象re.sub() 　　　　　　在一个字符串中替换所有匹配正则表达式的子串,返回替换后的字符串

re.findall( )这个比较简单常用，用法如下：
这个函数共有三个参数，pattern, string , flags

re.findall(pattern, string, flags=0)搜索字符串,以列表类型返回全部能匹配的子串∙ pattern : 正则表达式的字符串或原生字符串表示∙ string  : 待匹配字符串∙ flags 正则表达式使用时的控制标记

比如我们要从一堆字符中，把数字提取出来：

这里写图片描述

其他函数的使用实例

这里写图片描述

定向爬虫

爬取豆瓣电影，上海热映的电影：

url = https://movie.douban.com/cinema/nowplaying/shanghai/

我们需要定义一个函数，用于获取豆瓣热映的电影信息：

import requests   //导入需要用到的库import redef getHTMLText(url):    try:        r = requests.get(url)        r.raise_for_status()        r.encoding = r.apparent_encoding        return r.text    except:        print("Erro_get")

我们还需要定义一个函数，用于提取所需要的电影信息：

def parsePage(ilt,html):    tlt = re.findall(r'data-title\=\".*?\"',html)    for i in range(len(tlt)):        plt = eval(tlt[i].split('=')[1])        if plt in ilt:            pass        else:            ilt.append(plt)

然后第三个函数用于输出电影列表：

def printInfo(ilt):    print("上　海　热　映")    for i in ilt:        print(i)

再定义一个主函数去调用这些功能函数：

def main():    url = 'https://movie.douban.com/cinema/nowplaying/shanghai/'    kv = {'User-Agent' : 'Mozilla/5.0'}    list = []    html = getHTMLText(url)    parsePage(list,html)    printInfo(list)main()

运行即可看到以下画面：

这里写图片描述

总结

re库的功能非常强大，这些只是一些非常浅显的内容。
大家可以多实战，掌握正则表达式的用法。

阅读全文

0 0