Java正則表達式應用總結

Java正則表達式應用總結
 
1、概述
 
正則表達式是Java處理字符串、文本的重要工具。
 
Java對正則表達式的處理集中在如下兩個兩個類:
java.util.regex.Matcher   模式類:用來表示一個編譯過的正則表達式。
java.util.regex.Pattern   匹配類:用模式匹配一個字符串所表達的抽象結果。
(很遺憾,Java Doc並無給出這兩個類的職責概念。)
 
好比一個簡單例子:
import java.util.regex.Matcher;
import java.util.regex.Pattern;

/**
* 正則表達式例子
*
* @author leizhimin 2009-7-17 9:02:53
*/

public class TestRegx {
         public static void main(String[] args) {
                Pattern p = Pattern.compile( "f(.+?)k");
                Matcher m = p.matcher( "fckfkkfkf");
                 while (m.find()) {
                        String s0 = m.group();
                        String s1 = m.group(1);
                        System.out.println(s0 + "||" + s1);
                }
                System.out.println( "---------");
                m.reset( "fucking!");
                 while (m.find()) {
                        System.out.println(m.group());
                }

                Pattern p1 = Pattern.compile( "f(.+?)i(.+?)h");
                Matcher m1 = p1.matcher( "finishabigfishfrish");
                 while (m1.find()) {
                        String s0 = m1.group();
                        String s1 = m1.group(1);
                        String s2 = m1.group(2);
                        System.out.println(s0 + "||" + s1 + "||" + s2);
                }

                System.out.println( "---------");
                Pattern p3 = Pattern.compile( "(19|20)\\d\\d([- /.])(0[1-9]|1[012])\\2(0[1-9]|[12][0-9]|3[01])");
                Matcher m3 = p3.matcher( "1900-01-01 2007/08/13 1900.01.01 1900 01 01 1900-01.01 1900 13 01 1900 02 31");
                 while (m3.find()) {
                        System.out.println(m3.group());
                }
        }
}
 
輸出結果:
fck||c
fkk||k
---------
fuck
finish||in||s
fishfrish||ishfr||s
---------
1900-01-01
2007/08/13
1900.01.01
1900 01 01
1900 02 31

Process finished with exit code 0
 
2、一些容易迷糊的問題
 
一、Java對反斜線處理的問題
 
在其餘語言中,\\表示要插入一個字符\;
在Java語言中,\\表示要插入正則表達式的反斜線,而且後面的字符有特殊意義。
 
看API文檔:
預約義字符類
. 任何字符(與行結束符可能匹配也可能不匹配)
\d 數字:[0-9]
\D 非數字: [^0-9]
\s 空白字符:[ \t\n\x0B\f\r]
\S 非空白字符:[^\s]
\w 單詞字符:[a-zA-Z_0-9]
\W 非單詞字符:[^\w]
 
可是看看上面程序,對比下不難看出:
\d在實際使用的時候就寫成了 \\d ;
 
 
在Java正則表達式中,若是要插入一個\字符,則須要在正則表達式中寫成 \\\\ ,緣由是下面的APIDoc定義\\表示一個反斜線。
可是若是在正則表示式中表示回車換行等,則不須要多添加反斜線了。好比回車\r就寫做\r.
 
字符
x 字符 x
\\ 反斜線字符
\0n 帶有八進制值 0 的字符 n (0 <= n <= 7)
\0nn 帶有八進制值 0 的字符 nn (0 <= n <= 7)
\0mnn 帶有八進制值 0 的字符 mnn(0 <= m <= 三、0 <= n <= 7)
\xhh 帶有十六進制值 0x 的字符 hh
\uhhhh 帶有十六進制值 0x 的字符 hhhh
\t 製表符 ('\u0009')
\n 新行(換行)符 ('\u000A')
\r 回車符 ('\u000D')
\f 換頁符 ('\u000C')
\a 報警 (bell) 符 ('\u0007')
\e 轉義符 ('\u001B')
\cx 對應於 x 的控制符
 
二、Matcher.find():嘗試查找與模式匹配的字符序列的下一個子序列。此方法從字符序列的開頭開始,若是該方法的前一次調用成功了而且從那時開始匹配器沒有被重置,則從之前匹配操做沒有匹配的第一個字符開始,即若是前一次找到與模式匹配的子序列則此次從這個子序列後開始查找。
 
三、Matcher.matchers():判斷整個字符序列與模式是否匹配。當連續用Matcher對象檢查多個字符串時候,可使用
Matcher.reset():重置匹配器,放棄其全部顯式狀態信息並將其添加位置設置爲零。
或者Matcher.reset(CharSequence input)  重置此具備新輸入序列的匹配器。
來重複使用匹配器。
 
四、組的概念,這個概念很重要,組是用括號劃分的正則表達式,能夠經過編號來引用組。 組號從0開始,有幾對小括號就表示有幾個組,而且組能夠嵌套,組號爲0的表示整個表達式,組號爲1的表示第一個組,依此類推。
例如:A(B)C(D)E正則式中有三組,組0是ABCDE,組1是B,組2是D;
A((B)C)(D)E正則式中有四組:組0是ABCDE,組1是BC,組2是B;組3是C,組4是D。
 
int groupCount():返回匹配其模式中組的數目,不包括第0組。
String group():返回前一次匹配操做(如find())的第0組。
String group(int group):返回前一次匹配操做期間指定的組所匹配的子序列。若是該匹配成功,但指定組未能匹配字符序列的任何部分,則返回 null。
int start(int group):返回前一次匹配操做期間指定的組所匹配的子序列的初始索引。
int end(int group):返回前一次匹配操做期間指定的組所匹配的子序列的最後索引+1。
 
五、匹配的範圍的控制
最變態的就要算lookingAt()方法了, 名字很讓人迷惑,須要認真看APIDoc。
 
start()  返回之前匹配的初始索引。
end()  返回最後匹配字符以後的偏移量。
 
public boolean lookingAt()嘗試將從區域開頭開始的輸入序列與該模式匹配。
與 matches 方法相似,此方法始終從區域的開頭開始;與之不一樣的是,它不須要匹配整個區域。
若是匹配成功,則能夠經過 start、end 和 group 方法獲取更多信息。
返回:
當且僅當輸入序列的前綴匹配此匹配器的模式時才返回 true。
 
六、Pattern標記
 
Pattern類的靜態方法
static Pattern compile(String regex, int flags)
          將給定的正則表達式編譯到具備給定標誌的模式中。
其中的flags參數就是Pattern標記,這個標記在某些時候很是重要。
 
Pattern.CANON_EQ
          啓用規範等價。
Pattern.CASE_INSENSITIVE
          啓用不區分大小寫的匹配。
Pattern.COMMENTS
          模式中容許空白和註釋。
Pattern.DOTALL
          啓用 dotall 模式。
Pattern.LITERAL
          啓用模式的字面值分析。
Pattern.MULTILINE
          啓用多行模式。
Pattern.UNICODE_CASE
          啓用 Unicode 感知的大小寫摺疊。
Pattern.UNIX_LINES
          啓用 Unix 行模式。
 
3、字符串的替換
 
String.replace(char oldChar, char newChar)
          返回一個新的字符串,它是經過用 newChar 替換此字符串中出現的全部 oldChar 而生成的。
String.replace(CharSequence target, CharSequence replacement)
          使用指定的字面值替換序列替換此字符串匹配字面值目標序列的每一個子字符串。
String.replaceAll(String regex, String replacement)
          使用給定的 replacement 字符串替換此字符串匹配給定的正則表達式的每一個子字符串。
String.replaceFirst(String regex, String replacement)
          使用給定的 replacement 字符串替換此字符串匹配給定的正則表達式的第一個子字符串。
 
StringBuffer.replace(int start, int end, String str)
          使用給定 String 中的字符替換此序列的子字符串中的字符。
StringBuilder.replace(int, int, java.lang.String)
          使用給定 String 中的字符替換此序列的子字符串中的字符。
 
Matcher.replaceAll(String replacement)
          替換模式與給定替換字符串相匹配的輸入序列的每一個子序列。
Matcher.replaceFirst(String replacement)
          替換模式與給定替換字符串匹配的輸入序列的第一個子序列。
 
4、字符串的切分
 
 String[] split(String regex)
          根據給定的正則表達式的匹配來拆分此字符串。
 String[] split(String regex, int limit)
          根據匹配給定的正則表達式來拆分此字符串。
  
固然,還有一個StringTokenizer類,能夠用來切分字符串,可是如今SUN已經不推薦使用了。
轉變下思路,其實用正則表達式也能夠達到將字符串切分爲段的目的。
 
5、沒有提到的
 
正則表達式的API簡單好用,沒太多複雜的地方,並不是不重要,正則表達式最大的難點在於熟練書寫正則表達式。
有關正則表達式的規範,在Pattern類APIdoc中都有很是詳細的介紹,並且條理清晰,在此就不贅述了。
相關文章
相關標籤/搜索