更多提高正则表达式效率的方法

来源:互联网 发布:php高级工程师工资 编辑:程序博客网 时间:2024/06/01 19:39

原文:http://wyzws.iteye.com/blog/1274020


  1. 让匹配更快失败,尤其是匹配很长的字符串时,匹配失败的位置要比成功的位置多得多。
  2. 以简单、必须的字元开始,排除明显不匹配的位置,如锚点(^或$),特殊字符(x或\u263A)字符类([a-z]或\d之类的速记符),和单词边界(\b);尽量避免使用分组、选择、重复量词开头,如/one|two/、\s、\s{1,}等。
  3. 使用量词模式时,尽量让重复部分具体化,让字元互斥,如用”[^"\r\n]*”代替”.*?”(这个依赖回溯)。
  4. 减少分支数量、缩小分支范围,用字符集和选项组件来减少分支的出现,或把分支在正则上出现的位置推后,把分支中最常出现的情况放在分支的最前面。cat|bat -> [cb]at;red|read -> rea?d;red|raw -> r(?:ed|aw);
       
    1. (.|\r|\n) -> [\s\S]
    1. 使用非捕获组,因为捕获组需要消耗时间和内存来记录反向引用,并不断更新,如果不需要反向引用,可用非捕获组(?:…)代替捕获组(…);当需要全文匹配的反向引用时,可用regex.exec()返回的结果或者在替换字符串是使用$&。 
    此优化在firefox中效果较小,但其他浏览器中处理长字符串时有较大影响。
  5. 精确匹配需要的文本以减少后续的处理,如果需要引用匹配的一部分,可使用捕获,然后通过反向引用来处理。
  6. 暴露必需的字元,用/^(ab|cd)/而不是/(^ab|^cd)/。
  7. 使用合适的量词,基于预期的回溯数量,使用合适的量词类型。
  8. 把正则表达式赋值给变量以便复用和提升提升性能,这样可以让正则减少不必要的编译过程。while (/regex1/.test(str1)) {/regex2/.exec(str2);…}用下面的代替上面的   var regex1 = /regex1/,regex2 = /regex2/;while (regex1.test(str1)) {regex2.exec(str2);…}
  9. 将复杂的正则表达式拆分成简单的片段,每个正则只在上一个成功的匹配中查找,更高效,而且可以减少回溯。

原创粉丝点击