正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

来源:互联网 发布:keep软件下载 编辑:程序博客网 时间:2024/05/16 06:14

概念:正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作,有java、c++、python、javascript、perl、php等。

作用:

 1 给定的字符串是否符合正则表达式

 2 通过正则表达式可以从字符串中获取我们想要的特定部分

规则:

开始与结束:^、$

表示匹配个数:+(1次以上)、?(0或者1次)、|、< >、(注:前面四个元字符并不是所有的软件都支持)*、{n}、{n,}、{n,m}、\p{P}(javascript不支持)、.点(除\n\r外单个字符) *(任意次)

表示匹配范围:[xyz]、[^xyz]、[a-z]、[^a-z]

特殊字符时用:\    "\\d"

大小写:(大写表示否,小写表示是) \b (单词边界)\B  \d (数字)\D \s (不可见字符)\S \w (包含下划线字符)\W

不可见字符:\f、\r、\n、 \t、\v

组合:\cx  \xn(十六进制 ascII编码) \num、\n、\nm、\nml(八进制编码)、\un(十六进制unicode编码)中文

非获取匹配:(?:pattern)、(?=pattern)(匹配pattern的前面部分)、(?!pattern)、(?<=pattern)(匹配pattern的后面部分)、(?<!pattern)(否定)


几个例子快速认识:

1.验证用户名和密码:("^[a-zA-Z]\w{5,15}$")正确格式:"[A-Z][a-z]_[0-9]"组成,并且第一个字必须为字母6~16位;
2.验证电话号码:("^(\\d{3,4}-)\\d{7,8}$")正确格式:xxx/xxxx-xxxxxxx/xxxxxxxx;
3.验证手机号码:"^1[3|4|5|7|8][0-9]\\d{8}$";
4.验证身份证号(15位或18位数字):"\\d{14}[[0-9],0-9xX]";
5.验证Email地址:("^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$");

正则引擎:

NFA引擎(以表达式为准,容易操作,但速度慢,,为了匹配正则表达式的所有可能的扩展,可能对相同字符匹配多次,所以采用贪婪的回溯算法),java python perl 

DFA引擎(以文本为准,速度较快,但不好控制,在线性状态下执行,不要求回溯)。awk grep mysql程序都采用这个引擎。

JAVA类库java.util.regex包

Pattern类与matcher类

pattern类

compile(String regx)  参数正则表达式  返回值  pattern对象  功能

split(String str)  参数字符串  返回值string [] 返回被regx分隔的字符串数组

matches(String regex,String   str) 静态方法,返回boolean 用于快速匹配,只匹配一次,匹配全部字符串

matcher(String str)返回matcher类的对象 由pattern类对象调用

matcher类

pattern()返回pattern类对象,也就是该对象创建matcher类对象的

matches()用于匹配整个字符串 成功返回true

lookAt()对前面的字符串匹配 成功返回true

find()对字符串进行匹配,匹配到的子字符串可以在任何位置。成功返回true

start()返回匹配到的子字符串在字符串中的索引位置

end()返回匹配到的子字符串的最后一个字符在字符串中的索引位置

group()返回匹配到的子字符串

还有重载它们的方法start(i)、end(i)、group(i)用于分组操作,groupCount()返回分组数  即有多少个()被匹配了

注意:每次执行一次start end group的值都会发生变化的 ,并且用它们之前一定要确定已经匹配成功了,即find lookAt matches方法返回成功true,否则发生错误java.lang.IllegalStateException。

应用:

运行结果:

javascript

javascript里通过创建new REgExp(pattern,attributes)对象来调用它对应的函数和属性来支持正则表达式。

属性:

global全局匹配 匹配多次

ignoreCase忽略大小写

lastIndex 执行一次test    移动到匹配位置并加+ 不够从零开始

multiline 忽略^ $执行多行首尾

source

方法:

compile 重新编译正则表达式

exec检索字符串指定的值,并返回找到的值和确定它的位置

test 检索字符串指定的值,找到返回true


String对象支持正则表达式的方法

search(regex)检索与正则表达式匹配的值  参数:可以是字符串中的匹配的子字符串或中RegExp对象  返回第一个匹配的子字符串在字符串中的索引位置,它忽略g和lastIndex属性,也就是它不执行全局匹配和总是从头开始匹配

match( regex)找到一个或者多个与正则表达式匹配的值   匹配返回值不匹配返回null  /g全局匹配  返回与它匹配的所有子字符串。

replace (regex,String str)替换与正则表达式匹配的字符串    即用str替换满足用正则表达式匹配到的子字符串

split(string str,[len])把字符串分割成字符串数组   str可以是字符或者是正则表达式/^\\d+/(不是RegExp对象),[len]表示可选,是限定返回数组的长度

注意:如果正则表达式与字符串函数同样能达到效果就用字符串函数,效率高。

应用

数据库

以后有时间再补上。。。

oracle

mysql

mongdb

sql server 2005






1 0
原创粉丝点击