Java開發筆記(三十八)利用正則表達式校驗字符串

前面屢次提到了正則串、正則表達式,那麼正則表達式到底是符合什麼定義的字符串呢?正則表達式是編程語言處理字符串格式的一種邏輯式子,它利用若干保留字符定義了形形色色的匹配規則,從而經過一個式子來覆蓋知足了上述規則的全部字符串。正則表達式的保留字符主要有:圓括號、方括號、花括號、豎線、橫線、點號、加號、星號、反斜杆等等,這些保留字符的做用詳見前一篇博文,下面再簡單總結一下它們的用途:
圓括號「()」:把圓括號內外的表達式區別開來。
方括號「[]」:表示方括號內部的字符互相之間是或的關係。
花括號「{}」:花括號中間填寫數字,表示花括號前面的字符有多少位。
豎線「|」:對前面和後面的字符進行或運算,表示既能夠是前面的字符,也能夠是後面的字符。
橫線「-」:與前面和後面的字符組合起來,表明兩個字符之間的全部連續字符。
點號「.」:表明除了回車符和換行符之外的其它字符。
加號「+」:表示加號前面的字符能夠有一位,也能夠有多位。
星號「*」:表示星號前面的字符能夠有一位,也能夠有多位,還能夠沒有(0位)。
反斜杆「\」:兩個反斜杆可對保留字符進行轉義,表示保留字符的自身符號。
正則表達式除了用在split方法中切割字符串,還能夠用在matches方法中判斷字符串是否符合正則條件。以手機號碼爲例,不論是移動仍是聯通仍是電信的手機號,通通都是11位數字,而且第一位數字固定爲1,第二位數字多是三、四、五、七、8,再加上9位數字湊成11位手機號。那麼經過正則表達式書寫11位手機號碼的規則,第一位就用「1」表示,第二位可用「[34578]」表示,後面的9位數字使用「\\d{9}」表達,整合起來便造成了最終的手機號碼正則串「1[34578]\\d{9}」。下面的isPhone方法,就是根據這個正則表達式校驗手機號碼的代碼例子:html

	// 利用正則表達式檢查字符串是否爲合法的手機號碼
	public static boolean isPhone(String phone) {
		// 開頭的"1"表明第一位爲數字1,"[34578]"表明第二位能夠爲三、四、五、七、8其中之一,"\\d{9}"表明後面是9位數字
		String regex = "1[34578]\\d{9}";
		// 字符串變量的matches方法返回正則表達式對該串的檢驗結果,true表示符合字符串規則,false表示不符合規則
		return phone.matches(regex);
	}

 

再來一個更復雜的字符串校驗——身份證號碼的格式校驗,中國的二代身份證號碼共有18位,其中前六位是地區編碼,中間八位是公民的出生年月日,後面三位是該地區當日的出生序號,最後一位是校驗碼。國家把各省區劃分爲七大塊,地區編碼的首位爲1表明華北地區,爲2表明東北地區,爲3表明華東地區,爲4表明中南地區,爲5表明西南地區,爲6表明西北地區,爲8表明港澳臺特別行政區。地區編碼的第二位表明大區域下面的具體省區,再後面的位數表示下面的地市乃至縣區,一般只要校驗地區編碼的前兩位就好了,因而獲得以下的地區校驗的正則方法代碼例子:java

	// 校驗身份證號碼開頭的六位地區編碼
	public static void checkArea() {
		String regex = "(1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4}";
		for (int i=0; i<=90; i++) {
			String area = String.format("%06d", i*10000);
			boolean check = area.matches(regex);
			System.out.println("area = "+area+", check = "+check);
		}
	}

 

身份證號碼中間的八位出生年月日,可再拆分爲四位的年份、兩位的月份和兩位的日期。一個健在公民的出生年份,只多是二十世紀和二十一世紀的某一年,也就是說,四位年份一定以19或者20開頭,所以正則串「(19|20)\\d{2}」便可覆蓋這兩個世紀的兩百個年份。此時校驗年份的正則方法代碼以下所示:正則表達式

	// 校驗四位的年份字符串
	public static void checkYear() {
		String regex = "(19|20)\\d{2}";
		for (int i=1899; i<=2100; i++) {
			if (i>1910 && i<2090) {
				continue;
			}
			String year = i+"";
			boolean check = year.matches(regex);
			System.out.println("year = "+year+", check = "+check);
		}
	}

 

年份校驗完畢,後面的月份更簡單,由於兩位月份就是「01」到「12」中間的十二個數字。若是月份首位是0,那麼第二位能夠是1到9;若是月份首位是1,那麼第二位能夠是0到2。據此可把月份的正則表達式分解成兩個關係爲「或」的子表達式,其中第一個表達式可以使用「0[1-9]」,第二個表達式可以使用「1[0-2]」,兩個表達式經過豎線鏈接起來便造成了完整的月份表達式「0[1-9]|1[0-2]」。此時校驗月份的正則方法代碼以下所示:編程

	// 校驗兩位的月份字符串
	public static void checkMonth() {
		String regex = "0[1-9]|1[0-2]";
		for (int i=0; i<=13; i++) {
			String month = String.format("%02d", i);
			boolean check = month.matches(regex);
			System.out.println("month = "+month+", check = "+check);
		}
	}

 

月份後面的日期,校驗起來稍微有些複雜。合法的兩位日期能夠是「01」到「31」中間的三十一個數字,故而日期的正則校驗須要分解成如下的三種狀況:
一、日期首位是0,那麼第二位能夠是1到9,該狀況的正則表達式應爲「0[1-9]」。
二、日期首位是1或者2,那麼第二位能夠是0到9,該狀況的正則表達式應爲「[12]\\d」。
三、日期首位是3,那麼第二位能夠是0和1,該狀況的正則表達式應爲「3[01]」。
綜合以上的三種狀況,獲得完整的日期校驗正則串爲「0[1-9]|[12]\\d|3[01]」。此時校驗日期的正則方法代碼以下所示:編程語言

	// 校驗兩位的日期字符串
	public static void checkDay() {
		String regex = "0[1-9]|[12]\\d|3[01]";
		for (int i=0; i<=32; i++) {
			String day = String.format("%02d", i);
			boolean check = day.matches(regex);
			System.out.println("day = "+day+", check = "+check);
		}
	}

 

而後還要校驗身份證號碼的末尾四位,包括三位的出生編碼和一位的校驗碼。其中出生編碼爲三位數字,而校驗碼除了數字之外還多是小寫的x或者大寫的X,所以出生編碼和校驗碼也得分別加以判斷。三位的出生編碼,對應的正則表達式爲「\\d{3}」;一位的校驗碼,對應的正則表達式爲「[0-9xX]」;兩者的式子合起來,就變成了「\\d{3}([0-9xX])」。下面的方法代碼可生成四位的字符串,並進行身份證末四位的正則校驗:編碼

	// 校驗身份證號碼末尾的四位編號串
	public static void checkLastFour() {
		String regex = "\\d{3}([0-9xX])";
		for (int i=0; i<36; i++) {
			char last;
			if (i < 10) {
				// 轉換成數字字符
				last = (char) ('0'+i);
			} else {
				// 轉換成字母字符
				last = (char) ('A' + i-10);
			}
			String lastFour = String.format("%03d%c", i*13, last);
			boolean check = lastFour.matches(regex);
			System.out.println("lastFour = "+lastFour+", check = "+check);
		}
	}

 

以上把18位身份證號碼的各個區間分別作了正則校驗,最後還要組裝各區間的正則表達式。這時爲了不各區間的表達式互相干擾,能夠利用圓括號將各區間的做用範圍先行界定,就像下面這樣「(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)」,接着再把各區間的正則表達式分別填入該區間的圓括號之中,便造成了最終的身份證號碼正則串。包含正則串在內的身份證校驗的完整方法以下所示:3d

	// 利用正則表達式檢查字符串是否爲合法的身份證號碼
	public static boolean isICNO(String icno) {
		//String regex = "(六位地區編碼)(四位年份)(兩位月份)(兩位日期)(末尾四位編號)";
		String regex = "((1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5]|8[1-3])\\d{4})((19|20)\\d{2})(0[1-9]|1[0-2])(0[1-9]|[12]\\d|3[01])(\\d{3}([0-9xX]))";
		return icno.matches(regex);
	}

  

更多Java技術文章參見《Java開發筆記(序)章節目錄orm

相關文章
相關標籤/搜索