【Java】正则表达式

来源:互联网 发布:数据分析职业 编辑:程序博客网 时间:2024/04/30 13:46

【概念理解】

正则表达式:符合一定规则的表达式

作用:专门用于操作字符串

用一些特定的符号来表示一些代码操作,这样就简化书写,所以学习正则表达式就是在学习一些特殊符号的使用。

好处:可以简化对字符串的复杂操作

弊端:符号定义越多,正则越长,阅读性越差


主要包含四个功能:

1、匹配:String matches方法,用规则匹配整个字符串,只要有一处不符合,就匹配结束,返回false

2、切割:按照叠词完成切割,为了可以让规则的结果可以被重用,可以将规则封装成一个组,用()完成,组的出现都有编号,从一开始,想要使用已有的组可以通过\nn就是租的编号)如:“(.\\1+  ------按照任意多的叠词切

3、替换:String  replaceAll()

将重叠的字符替换成单个字符,$获取组的元素!

4、 获取:将字符串中符合规则的子串取出

操作步骤:

A、将正则表达式封装成对象

B、让正则对象和要操作的字符串相关联

C、关联后,获取正则匹配引擎

D、通过引擎对符合规则的子串进行操作,比如取出


【规则】

  1:字符类
    [abc]:表示出现a,b或c中的任意一个。
    [^abc]:表示除了a,b,c以外的字符。
    [a-zA-Z]:包括了26个英文字母,不论是大写还是小写。
    [0-9]:包括了0-9这10个数字字符。

  2:预定义字符类 
    . 任意字符
    \d 数字[0-9]
    \D 非数字[^0-9] 
    \w 单词字符:[a-zA-Z_0-9] 
    \W 非单词字符:[^\w] 

  3:边界匹配器

    ^行的开头 
    $ 行的结尾 
    \b 单词边界 

  4:Greedy 数量词
    x? 0次或1次
    x* 0次或多次
    x+ 1次或多次
    x{n} 恰好n次
    x{n,} 至少n次
    x{m,n} 至少m次,但不能超过n次


【正则表达式应用】

1、获取

import java.util.regex.*;class RegexDemo2{       public static void main(String[] args)       {              getDemo();       }       public static void getDemo()       {              String str="ni hao ma ye xu ceng jing de ni yao hao yi xie !";              System.out.println(str);              String regex="\\b[a-zA-Z]{3}\\b";              Pattern p=Pattern.compile(regex);//将正则表达式封装成对象              Matcher m=p.matcher(str);//将正则对象和要操作的字符串相关联              while(m.find())              {                     System.out.println(m.group());                     System.out.println(m.start()+"----"+m.end());              }       }}

2、检验QQ号:

(1)第一位:1~9,不能为0
(2)所有组成元素必须是0~9之间的数字
(3)QQ号的位数是4~14位
class RegexDemo{       public static void main(String[] args)       {              checkQQ();       }       public static void checkQQ()       {              String qq="534946o910";              String regex="[1-9][0-9]{4,14}";              boolean flag=qq.matches(regex);              if(flag)              {                     System.out.println("qq="+qq+" is ok!");              }              else              {                     System.out.println("您所输入的qq:"+qq+"不合法");              }       }}

3、我要学编程

将下列字符串转成:我要学编程

 到底用四种功能中的哪一个呢?或者哪几个呢?

 思路方式:

 1、如果只想知道该字符串是对是错,使用匹配

 2、想要将已有的字符串变成另一个字符串,替换

 3、想要按照自定的方式将字符串变成多个字符串,切割,获取规则以外的子串

 4、想要拿到符合需求的字符串子串,获取,获取符合规则的子串

 class RegexTest1 {      public static void main(String[] args)      {             test_1();      }      public static void test_1()      {             String str="我我......要要要要......学学...编编编编编编...程程";             String regex="\\.+";             str=str.replaceAll(regex,"");             str=str.replaceAll("(.)\\1+","$1");             System.out.println(str);      } }

4、网页爬虫蜘蛛获取网页邮箱地址

import java.io.*;import java.util.regex.*;import java.net.*;import java.util.*;class RegexTest2{       public static void main(String[] args) throws Exception       {              getMails_1();       }       public static void getMails_1()throws Exception       {              URL url = new URL("http://192.168.1.254:8080/myweb/mail.html");              URLConnection conn = url.openConnection();              BufferedReaded bufIn = new BufferedReader(new InputStreamReader(conn.getInputStream()));                    String line = null;              String mailreg = "\\w+@\\w+(\\.\\w+)+";              Pattern p = Pattern.compile(mailreg);              while((line=bufIn.readLine())!=null)              {                     Matcher m = p.matcher(line);                     while(m.find())                     {                            System.out.println(m.group());                     }              }       }

【小结】:

提供更强大的字符串处理能力,测试字符串内的模式,例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或身份证号码模式。即数据验证替换文本可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。

 



2 0