正则表达式

来源:互联网 发布:软件质量保证承诺书 编辑:程序博客网 时间:2024/06/05 14:22

1.正则表达式组成单位

1.1原子

  1. 普通字符:如a~z、A~Z、0~9
  2. 一些特殊字符和元字符:\"、\*、\+等
  3. 非打印字符:如\t、\n、\r、\f
  4. 通用字符类型:\d、\D、\s、\S、\w、\W
  5. 使用[]自定义原子表:如[aeiou]

1.2元字符

  1. 限定符:*、+、?、{n}、{n,}、{n,m}
  2. 边界限制:^(或\A)、$(或\Z)
  3. 句点(.):
  4. 模式选择符( | ):匹配多个选择之一,优化级最低
  5. 模式单元():将多个原子组成大的原子
  6. 后向引用():圆括号所匹配到的内容将存储在一个临时缓冲区中,可使用'\n'访问,如\1、\2等,例:'/^\d{4}(\W)\d{2}\\1\d{2}$/'
  7. 非捕获元字符:“?:”、“?=”、“?!”,忽略对相关匹配的保存

1.3模式修正符

  1. i:模式匹配时不区分大小写
  2. m:将字符串视为多行
  3. s:圆点元字符“.”匹配所有字符,包括换行符
  4. x:模式中的空白忽略不计,除非它已经被转义
  5. e:
  6. U:一般用.*?代替,最短匹配,只匹配最近的一个字符串;不重复匹配;
  7. D:$仅匹配目标字符串的结尾,无些选项时,亦匹配至换行符前