python 贪婪 非贪婪 匹配
来源:互联网 发布:java 服务端推送 编辑:程序博客网 时间:2024/05/22 14:13
python 中的正则是匹配换行以外的所有的字符。.* 是匹配不了所有的字符的。在某些情况下,我的结论是正确的,但是在某些情况下,我的结论又是错误的。刚才遇到的问题,现在终于知道是怎么回事了,原来是贪婪匹配和非贪婪匹配的问题,对于这种情况,我也是相对迟钝了。
save.html 是我随便抓来的一个html,我要从这个html中抓出所有的 javascript代码段。
def getcss(): fh = open('save.html') html =fh.read() #js_pattern = re.compile(r'<script .*?">'); ans = re.findall(r'<script .*?>.*?</script>',html,re.S) src_pattern = re.compile(r'^"http.*"'); for i in ans: #ret = re.findall(src_pattern,i) print i
通过上面的程序,我得到了下面的结果。源文件是一个html,格式一般,这些代码段是分行的,我的目的是找出所有的代码段。下面做一个简单的解释。在尝试的过程中,我试了好几种正则表达式,下面讲一下我遇到的问题。
实现是跨行匹配的问题,.*是无法匹配\n的,所以如果标签分布在不同的行,那么如何匹配中间的内容呢。为了解决跨行匹配的问题,找到了这个解决方案,可以用([\d\D]*)或([\w\W]*) 或([\s\S]*) 来代替。
然后又遇到了问题,我的正则总是会匹配太多的内容,最后发现,我的匹配模式是按照最多内容匹配的。默认的匹配模式是贪婪匹配,所以如果用了.*的话,总会匹配更多的内容。所以找到了这个参考。python贪婪匹配看到了贪婪匹配和非贪婪匹配的核心在一个?上,re.S标记是多行匹配的关键,类似的标记还有re.M标记,这个是一行的标记。re.M:^$标志将会匹配每一行,默认^和$只会匹配第一行,文章里有几个例子还是很不错的,值得仔细研究一下,建议自己执行一下这些代码,看下结果,如果这些都很清楚,那么正则掌握的还算不错。
re.findall(r"a(\d+?)", "a23b")re.findall(r"a(\d+)", "a23b")re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b")re.findall(r"a(\d+)b.+a(\d+)b", "a23b\na34b", re.S)
最后,实现了上面我提出的需求,主要利用了跨行匹配和非贪婪匹配。
1 0
- python 贪婪 非贪婪 匹配
- python非贪婪匹配
- python 正则表达式的贪婪匹配与非贪婪匹配
- python re的贪婪和非贪婪匹配
- vim贪婪匹配与非贪婪匹配
- 贪婪匹配和非贪婪匹配
- 非贪婪匹配
- vim非贪婪匹配
- 正则表达式-贪婪与非贪婪匹配
- 正则表达式-贪婪与非贪婪匹配
- python 贪婪与非贪婪模式
- Linux_vi非贪婪匹配_\{-}
- python 贪婪和非贪婪、多行匹配正则表达式小结
- python 贪婪和非贪婪、多行匹配正则表达式小结
- python非贪婪、多行匹配正则表达式例子
- python非贪婪、多行匹配正则表达式
- python 非贪婪多匹配,注意使用findall
- Python re库 非贪婪匹配(正则表达式库)
- CodeForces 482A Diverse Permutation
- android4.2.2代码下载地址
- Office 2013 使用ENDNOTE方法 – 图文教程
- UVa 10118 Free Candies(记忆化搜索经典)
- Android编译问题汇总
- python 贪婪 非贪婪 匹配
- block protocol
- Objective-C基础——面向对象语法03
- Sales_item.h demo
- Ui
- 李克强:制定“互联网+”行动计划
- StringBuilder性能真的优于StringBuffer?!!!!
- 大概放过
- winows下查看端口并结束进程笔记