学习正则表达式笔记

来源：互联网发布：vb中format函数用法编辑：程序博客网时间：2024/06/05 10:42

先写一个 word的写博客的使用，就是 Alt + = 可以迅速打开公式编辑，当然我更喜欢公式编辑器，因为习惯了。

unicode字符串前面使用u前缀，就像原始字符串使用r一样。

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE

一个网页的HTML源码。其中有一段

<html><body><h1>hello world<h1></body></html>

你想要把这个hello world提取出来，但你这时如果只会python 的字符串处理，那么第一反应可能是

s = <html><body><h1>hello world<h1></body></html>

start_index = s.find('<h1>')

然后从这个位置向下查找到下一个<h1>出现这样做未尝不可，但是很麻烦不是吗。需要考虑多个标签，一不留神就多匹配到东西了，而如果想要非常准确的匹配到，又得多加循环判断，效率太低

1.重新回到第一个例子中那个<h1>hello world<h1>匹配。假如我像这么写，会怎么样？

import re

key = r"<h1>hello world<h1>"#源文本

p1 = r"<h1>.+<h1>"#我们写的正则表达式，下面会将为什么

pattern1 = re.compile(p1)

print pattern1.findall(key)#发没发现，我怎么写成findall了？咋变了呢？

有了入门级的经验，我们知道那两个<h1>就是普普通通的字符，但是中间的是什么鬼？
.字符在正则表达式代表着可以代表任何一个字符（包括它本身）
findall返回的是所有符合要求的元素列表，包括仅有一个元素时，它还是给你返回的列表。

机智如你可能会突然问：那我如果就只是想匹配"."呢？结果啥都给我返回了咋整？在正则表达式中有一个字符\，其实如果你编程经验较多的话，你就会发现这是好多地方的"转义符"。在正则表达式里，这个符号通常用来把特殊的符号转成普通的，把普通的转成特殊的23333（并不是特殊的"2333"，写完才发现会不会有脑洞大的想歪了）。

+的作用是将前面一个字符或一个子表达式重复一遍或者多遍。
比方说表达式"ab+"那么它能匹配到"abbbbb"，但是不能匹配到"a"，它要求你必须得有个b，多了不限，少了不行。你如果问我有没有那种"有没有都行，有多少都行的表达方式"，回答是有的。

*跟在其他符号后面表达可以匹配到它0次或多次

比方说我们在王叶内遇到了链接，可能既有http://开头的，又有https://开头的，我们怎么处理？

import re

key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡编乱造的网址，别在意

p1 = r"https*://"#看那个星号！

pattern1 = re.compile(p1)

print pattern1.findall(key)

[]代表匹配里面的字符中的任意一个
还是举个栗子，我们发现啊，有的程序员比较过分，，在<html></html>这对标签上，大小写混用，老害得我们抓不到想要的东西，我们该怎么应对？是写16*16种正则表达式挨个匹配？no

import re

key = r"lalala<hTml>hello</Html>heiheihei"

p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>"

pattern1 = re.compile(p1)

print pattern1.findall(key)

输出

['<hTml>hello</Html>']

***************************

了一个"?"我们就将贪婪的"+"改成了懒惰的"+"。这对于[abc]+,\w*之类的同样适用。

小测验：上面那个例子可以不使用懒惰匹配，想一种方法得到同样的结果

**个人建议：在你使用"+","*"的时候，一定先想好到底是用贪婪型还是懒惰型，尤其是当你用到范围较大的项目上时，因为很有可能它就多匹配字符回来给你！！！**

为了能够准确的控制重复次数，正则表达式还提供
{a,b}(代表a<=匹配次数<=b)

还是举个栗子，我们有sas,saas,saaas，我们想要sas和saas，我们怎么处理呢？

import re

key = r"saas and sas and saaas"

p1 = r"sa{1,2}s"

pattern1 = re.compile(p1)

print pattern1.findall(key)

输出

['saas', 'sas']

如果你省略掉{1,2}中的2，那么就代表至少匹配一次，那么就等价于？
如果你省略掉{1,2}中的1，那么就代表至多匹配2次。

转载于： http://www.cnblogs.com/chuxiuhong/p/5885073.html

阅读全文

0 0

学习正则表达式 笔记

学习正则表达式笔记