Oracle 正则表达式

来源：互联网发布：genbank数据库网址编辑：程序博客网时间：2024/06/01 09:57

一.    正则表达式简介:
    正则表达式，就是以某种模式来匹配一类字符串。一旦概括了某类字符串，那么正则表达式即可用于针对字符串的各种相关操作。例如，判断匹配性，进行字符串的重新组合等。正则表达式提供了字符串处理的快捷方式。Oracle 10g及以后的版本中也支持正则表达式.

二.    正则表达式相对通配符的优势:
1.       正则表达式中不仅存在着代表模糊字符的特殊字符，而且存在着量词等修饰字符，使得模式的控制更加灵活和强大。
2.       通配符的使用一般是在特定的环境下,不同的环境下，通配符有可能不同。而正则表达式，不但广泛应用于各种编程语言，而且在各种编程语言中，保持了语法的高度一致性。

三.    元字符:
元字符是指在正则表达式中表示特殊含义的字符。

ORACLE正则表达式
元字符含义
^ 匹配输入字符串的开始位置，在方括号表达式中使用，此时它表示不接受该字符集合。
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性，则 $ 也匹配 'n' 或 'r'。
. 匹配除换行符 n之外的任何单字符。
? 匹配前面的子表达式零次或一次。
+ 匹配前面的子表达式一次或多次。
* 匹配前面的子表达式零次或多次。
| 指明两项之间的一个选择。例子'^([a-z]+|[0-9]+)$'表示所有小写字母或数字组合成的字符串。
() 标记一个子表达式的开始和结束位置(字符组)。
[] 标记一个中括号表达式。
{m,n} 一个精确地出现次数范围，m=<出现次数<=n，'{m}'表示出现m次，'{m,}'表示至少出现m次。
四.    量词
   量词用来指定量词的前一个字符出现的次数。量词的形式主要有“?”、“*”、“+”、“{}”。量词在用于匹配字符串时，默认遵循贪婪原则。贪婪原则是指，尽可能多地匹配字符。例如:字符串“Function(p),(OK)”，如果使用正则表达式“$.*$”进行匹配，则得到字符串“(p), (OK)” ，而非“(p)”；若欲得到“(p)”，则必须取消量词的贪婪原则，此时只需要为量词后追加另外一个数量词“?”即可。如上面的正则表达式应该改为“\ (.*?\)”。
五.    字符转义:
    元字符在正则表达式中有特殊含义。如果需要使用其原义，则需要用到字符转义。字符转义使用字符“\”来实现。其语法模式为：“\”+元字符。例如，“ \.”表示普通字符“.”；     “\.doc”匹配字符串“.doc”；而普通字符“\”需要使用“\\”来表示。

六.    字符组.
字符组是指将模式中的某些部分作为一个整体。这样，量词可以来修饰字符组，从而提高正则表达式的灵活性。字符组通过()来实现.
许多编程语言中，可以利用“$1”、“$2”等来获取第一个、第二个字符组，即所谓的后向引用。在Oracle中，引用格式为“\1”、“\2”。

七.    正则表达式分支
    可以利用“|”来创建多个正则表达式分支。例如，“\d{4}|\w{4}”可以看做两个正则表达式——“\d{4}”和“\w{4}”，匹配其中任何一个正则表达式的字符串都被认为匹配整个正则表达式。如果该字符串两个正则表达式分支都匹配，那么将被处理为匹配第一个正则表达式分支。

八.    字符类.
在Oracle中，正则表达式的用法与标准用法略有不同。这种不同主要体现在对于字符类的定义上。Orale中不使用字符“\”与普通字符组合的形式来实现字符类，而是具有其特殊语法.
ORACLE字符类
表示含义
[[:alpha:]] 表示任意字母，正则表达式的一般语法为\w。
[[:digit:]] 表示任意数字，正则表达式的一般语法为\d。
[[:lower:]] 表示任意小写字母。
[[:upper:]] 表示任意大写字母。
[[:alnum:]] 表示任意字母和数字。
[[:space:]] 表示任意空白字符，正则表达式的一般语法为\s。
[[:punct:]] 表示任意标点符号。
[[:xdigit:]] 表示任意16进制的数字，相当于[0-9a-fA-F]。

九. ORACLE中的四个正则表达式相关函数.
1. regexp_like(expression, regexp)
   返回值为一个布尔值。如果第一个参数匹配第二个参数所代表的正则表达式，那么将返回真，否则将返回假。
举例:   select * from people where regexp_like(name, '^J.*$');
相当于: select * from people where name like 'J%';
2. regexp_instr(expression, regexp, startindex, times)
返回找到的匹配字符串的位置.
参数startindex表示开始进行匹配比较的位置；参数times表示第几次匹配作为最终匹配结果。
举例: select regexp_instr('12.158', '\.') position from dual;
regexp_instr('12.158', '\.')用于获取第一个小数点的位置。
3. regexp_substr(expression, regexp)
   返回第一个字符串参数中，与第二个正则表达式参数相匹配的子字符串。
   举例: create table html(id integer, html varchar2(2000));
insert into html
values (1, '<a href="http://mail.google.com/2009/1009.html">mail link</a>');
表html中存储了HTML标签及内容。现欲从标签<a>中获得链接的url，那么可以利用regexp_substr()函数。
select id, regexp_substr(html, 'http[a-zA-Z0-9\.:/]*') url from html;
4. regexp_replace(expression, regexp, replacement)
     将expression中的按regexp匹配到的部分用replacement代替.
     在参数replacement中，可以含有后向引用，以便将正则表达式中的字符组重新捕获。例如，某些国家和地区的日期格式可能为“MM/DD /YYYY”，那么可以利用regexp_replace()函数来转换日期格式。
select regexp_replace('09/29/2008', '^([0-9]{2})/([0-9]{2})/([0-9]{4})$', '\3-\1-\2') replace
from dual;

注: 在进行正则表达式匹配时，还可以忽略字符大小写形式进行匹配.但是不能解除[[:upper:]]和[[:lower:]]的作用.
select * from people where regexp_like(name, 'or');
select * from people where regexp_like(name, 'or', 'i');   --‘i’表示忽略大小写

十. 正则表达式练习

第一： REGEXP_LIKE函数用法
EMP表结构如下：
SQL> desc emp;
Name                                      Null?    Type
----------------------------------------- -------- ----------------------------

EMPNO                                     NOT NULL NUMBER(4)
ENAME                                              VARCHAR2(10)
JOB                                                VARCHAR2(9)
MGR                                                NUMBER(4)
HIREDATE                                           DATE
SAL                                                NUMBER(7,2)
COMM                                               NUMBER(7,2)
DEPTNO                                             NUMBER(2)
EMP表中部分数据如下：
SQL> select empno,ename,sal,hiredate from emp;

     EMPNO ENAME             SAL HIREDATE
---------- ---------- ---------- --------------
      7369 SMITH             800 17-12月-80
      7499 ALLEN            1600 20-2月 -81
      7521 WARD             1250 22-2月 -81
      7566 JONES            2975 02-4月 -81

下面给出几种REGEXP_LIKE函数的例子
1、查找员工编号为4位数字的员工信息
SQL> select empno,ename from emp where regexp_like(empno,'^[[:digit:]]{4}$');
或者: select empno,ename from emp where regexp_like(empno,'^[0-9]{4}$');
     EMPNO ENAME
---------- ----------
      7369 SMITH
      7499 ALLEN
      7521 WARD
      7566 JONES
2、查找员工姓名为全英文的员工信息
SQL> select empno,ename from emp where regexp_like(ename,'^[[:alpha:]]+$');
或者: select * from emp where regexp_like(ename,'^[a-zA-Z]+$');
     EMPNO ENAME
---------- ----------
      7369 SMITH
      7499 ALLEN
      7521 WARD
      7566 JONES
      7654 MARTIN
3、查找员工姓名以“a”字母开头，不区分大小写
SQL> select empno,ename from emp where regexp_like(ename,'^a','i');

     EMPNO ENAME
---------- ----------
      7499 ALLEN
      7876 ADAMS
4、查找员工姓名为全英文，且以“N”结尾的员工信息
SQL> select empno,ename from emp where regexp_like(ename,'^[[:alpha:]]+N$');

     EMPNO ENAME
---------- ----------
      7499 ALLEN
      7654 MARTIN
5、查找员工编号以非数字开头的员工信息
SQL> select empno,ename from emp where regexp_like(empno,'[^[:digit:]]');

no rows selected

第二： REGEXP_INSTR函数用法
1、查找员工编号中第一个非数字字符的位置
SQL> select regexp_instr(empno,'[^[:digit:]]') position from emp;

POSITION
----------
         0
         0
         0
2、从第三个字符开始，查找员工编号中第二个非数字字符的位置
SQL> select regexp_instr(empno,'[^[:digit:]]',3,2) position from emp;

POSITION
----------
         0
         0

第三： REGEXP_SUBSTR函数用法
1、返回从ename的第二个位置开始查找，并且是以“L”开头到结尾的字串
SQL> select regexp_substr(ename,'L.*','2') substr from emp;

SUBSTR
------------------
LLEN
LAKE
LARK

第四：REGEXP_REPLACE函数用法
1、把ename中所有非字母字符替换为“A”
SQL> update emp set ename=regexp_replace(ename, '[^[:alpha:]]', 'A')
2 where regexp_like(ename, '[^[:alpha:]]');
1 row updated

转自 http://fkshl.iteye.com/blog/849914

0 0