深入浅出C/C++中的正则表达式库——GNU Regex Library

来源:互联网 发布:兵不可偃乎翻译 编辑:程序博客网 时间:2024/05/29 18:33

正则表达式(Regular Expressions),又被称为regex或regexp,是一种十分简便、灵活的文本处理工具。它可以用来精确地找出某文本中匹配某种指定规则的内容。在linux下,grep, sed, awk等工具都支持正则表达式,这些工具的存在,为我们日常的文本处理带来了极大的便利。但是,有时候,我们自己写的程序中也需要用到正则表达式来处理一些文本,这时候就需要一些正则表达式库的支持了。由于我本人是用C/C++做为主要开发语言的,所以,在本文以及接下来的几篇文章中,我将介绍几个常用的C/C++的正则表达式的库,通过我的介绍,以及对具体的使用进行举例,希望能够给读者朋友在C/C++程序中使用正则表达式时有点帮助,这将是我莫大的荣幸。

当前,据我所知,在C/C++中常用的正则表达式库有GNU Regex Library, Boost.Regex, PCRE, PCRE++。这四个库中,后面两个是有关系,其它都是各自己独立的,是不同的实现。因此我会分三次,来一一对这四个库进行介绍。今天首先介绍一下GNU Regex Library。

 

1. 什么是GNU正则表达式库(GNU Regex Library) ?
GNU正则表达式库是glibc(GNU C Library)的一部分,它提供与POSIX标准兼容的正则表达式匹配的接口。
这里是其主页:http://www.gnu.org/s/libc/manual/html_node/Regular-Expressions.html

2. GNU Regex Library所提供的接口

 

int regcomp(regex_t *preg, const char *pattern, int cflags)
功能:将要进行匹配的正则表达式pattern进行编译,做匹配前的准备工作
参数: preg, 输出参数,用来保存编译后的正则表达式结果
      pattern, 输入参数,传入要进行编译的正则表达式的字符串
      cflags, 输入参数,用来指定正则表达式匹配过程中的一些选项
返回值:编译成功返回0,失败返回非0的错误码

 

int regexec(const regex_t *preg, const char *string, size_t nmatch, regmatch_t pmatch[],
            int eflags)
功能:用来检测字符串string是否匹配正则表达式preg
参数: preg, 输入参数,在(1)regcomp中编译好的正则表达式规则
      string, 输入参数,用来被匹配的字符串
      nmatch, 输入参数,用来指定pmatch参数所对应的数组的长度
      pmatch, 输出参数,用来输出在string中匹配preg的具体位置
        eflag, 输入参数,用来指定正则表达式匹配过程中的一些选项
        返回值: 如果string匹配preg所指定的规则,则返回0, 否则返回非0

 

size_t regerror(int errcode, const regex_t *preg, char *errbuf, size_t errbuf_size)功能:用来把在regcompt和regexec中产生的错误码转化成字符串形式的错误信息参数: errcode, 输入参数,在regcomp或regexec调用中返回的错误码      preg, 输入参数,与错误码所对应的编译过的正则表达式结构      errbuf, 输出参数,用来返回错误信息的buffer,如果buffer不够所需大小,错误信息将被截断      errbuf_size, 输入参数,返回错误信息的buffer的大小 返回值: 如果errbuf_size为0,那么regerror返回错误信息所需要的buffer的大小

void regfree (regex_t *preg)功能: 用来释放由regcomp编译时生成的preg结构所占用的内存参数: preg, 输入参数,由regcomp编译时生成的正则表达的结构指针返回值:
原创粉丝点击