正則應用,日期正則表達式

 

1 概述
首先須要說明的一點,不管是Winform,仍是Webform,都有很成熟的日曆控件,不管從易用性仍是可擴展性上看,日期的選擇和校驗仍是用日曆控件來實現比較好。
前幾天在CSDN多個版塊看到須要日期正則的帖子,因此整理了這篇文章,和你們一塊兒討論交流,若有遺漏或錯誤的地方,還請你們指正。
日期正則通常是對格式有要求,且數據不是直接由用戶輸入時使用。因應用場景的不一樣,寫出的正則也不一樣,複雜程度也天然不一樣。正則的書寫須要根據具體狀況具體分析,一個基本原則就是:只寫合適的,不寫複雜的
對於日期提取,只要能與非日期區分開,寫最簡單的正則便可,如
\d{4}-\d{2}-\d{2}
若是能夠在源字符串中惟必定位yyyy-MM-dd格式的日期,則可用作提取。
對於驗證,若是僅僅是驗證字符組成及格式是沒有多大意義的,還要加入對規則的校驗。因爲閏年的存在,使得日期的校驗正則變得比較複雜。
先來考察一下日期的有效範圍以及什麼是閏年。
2 日期的規則
2.1 日期的有效範圍
對於日期的有效範圍,不一樣的應用場景會有所不一樣。
MSDN中定義的DateTime對象的有效範圍是:0001-01-01 00:00:009999-12-31 23:59:59
UNIX時間戳的0按照ISO 8601規範爲 :1970-01-01T00:00:00Z
而實際應用中,日期的範圍基本上不會超出DateTime所規定的範圍,因此正則驗證取其中經常使用的日期範圍便可。
2.2 什麼是閏年
(如下摘自百度百科)
閏年(leap year)是爲了彌補因人爲曆法規定形成的年度天數與地球實際公轉週期的時間差而設立的。補上時間差的年份爲閏年。
須要注意的是,如今的公曆是根據羅馬人的「儒略曆」改編而得。因爲當時沒有了解到每一年要多算出0.0078天的問題,從公元前46年,到16世紀,一共累計多出了10天。爲此,當時的教皇格雷果裏十三世,將1582105日人爲規定爲1015日。並開始了新閏年規定。即規定公曆年份是整百數的,必須是400的倍數纔是閏年,不是400的倍數的就是平年。好比,1700年、1800年和1900年爲平年,2000年爲閏年。此後,平均每一年長度爲365.2425天,約4年出現1天的誤差。按照每四年一個閏年計算,平均每一年就要多算出0.0078天,通過四百年就會多出大約3天來,所以,每四百年中要減小三個閏年。閏年的計算,歸結起來就是一般說的:四年一閏;百年不閏,四百年再閏
2.3 日期的格式
根據不一樣的語言文化,日期的連字符會有所不一樣,一般有如下幾種格式:
yyyyMMdd
yyyy-MM-dd
yyyy/MM/dd
yyyy.MM.dd
3 日期正則表達式構建
3.1 規則分析
寫複雜正則的一個經常使用方法,就是先把不相關的需求拆分開,分別寫出對應的正則,而後組合,檢查一下相互的關聯關係以及影響,基本上就能夠得出對應的正則。
按閏年的定義可知,日期能夠有幾種分類方法。
3.1.1 根據天數是否與年份有關劃分爲兩類
與年份無關的一類中,根據每個月天數的不一樣,又可細分爲兩類
Ø 135781012月爲1-31
Ø 46911月爲1-30
與年份有關的一類中
Ø 平年2月爲1-28
Ø 閏年2月爲1-29
3.1.2 根據包含日期不一樣可劃分爲四類
Ø 全部年份的全部月份都包含1-28
Ø 全部年份除2月外都包含2930
Ø 全部年份135781012月都包含31
Ø 閏年2月包含29
3.1.3 分類方法選擇
由於日期分類以後的實現,是要經過(exp1|exp2|exp3)這種分支結構來實現的,而分支結構是從左側分支依次向右開始嘗試匹配,當有一個分支匹配成功時,就再也不向右嘗試,不然嘗試全部分支後並報告失敗。
分支的多少,每一個分支的複雜程度都會影響匹配效率,考慮到被驗證日期機率分佈,絕大多數都是落到1-28日內,因此採用第二種分類方法,會有效提升匹配效率。
3.2 正則實現
採用3.1.2節的分類方法,就能夠針對每個規則寫出對應的正則,如下暫按MM-dd格式進行實現。
先考慮與年份無關的前三條規則,年份可統一寫做
(?!0000)[0-9]{4}
下面僅考慮月和日的正則
Ø 包括平年在內的全部年份的月份都包含1-28
(0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])
Ø 包括平年在內的全部年份除2月外都包含2930
(0[13-9]|1[0-2])-(29|30)
Ø 包括平年在內的全部年份135781012月都包含31
(0[13578]|1[02])-31)
合起來就是除閏年的229日外的其它全部日期
(?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)
接下來考慮閏年的實現
Ø 閏年2月包含29
這裏的月和日是固定的,就是02-29,只有年是變化的。
可經過如下代碼輸出全部的閏年年份,考察規則
for ( int i = 1; i < 10000; i++)
{
if ((i % 4 == 0 && i % 100 != 0) || i % 400 == 0)
{
richTextBox2.Text += string.Format("{0:0000}", i) + "\n";
}
}
根據閏年的規則,很容易整理出規則,四年一閏;
([0-9]{2}(0[48]|[2468][048]|[13579][26])
百年不閏,四百年再閏
(0[48]|[2468][048]|[13579][26])00
合起來就是全部閏年的229
([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)
四條規則都已實現,且互相間沒有影響,合起來就是全部符合DateTime範圍的日期的正則
^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$
考慮到這個正則表達式僅僅是用做驗證,因此捕獲組沒有意義,只會佔用資源,影響匹配效率,因此可使用非捕獲組來進行優化。
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$
以上正則年份0001-9999,格式yyyy-MM-dd。能夠經過如下代碼驗證正則的有效性和性能
DateTime dt = new DateTime(1, 1, 1);
DateTime endDay = new DateTime(9999, 12, 31);
Stopwatch sw = new Stopwatch();
sw.Start();
Regex dateRegex = new Regex(@"^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)$");
//Regex dateRegex = new Regex(@"^((?!0000)[0-9]{4}-((0[1-9]|1[0-2])-(0[1-9]|1[0-9]|2[0-8])|(0[13-9]|1[0-2])-(29|30)|(0[13578]|1[02])-31)|([0-9]{2}(0[48]|[2468][048]|[13579][26])|(0[48]|[2468][048]|[13579][26])00)-02-29)$");
Console.WriteLine( "開始日期: " + dt.ToString( "yyyy-MM-dd"));
while (dt < endDay)
{
if (!dateRegex.IsMatch(dt.ToString("yyyy-MM-dd")))
{
Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false");
}
dt = dt.AddDays(1);
}
if (!dateRegex.IsMatch(dt.ToString( "yyyy-MM-dd")))
{
Console.WriteLine(dt.ToString("yyyy-MM-dd") + " false");
}
Console.WriteLine( "結束日期: " + dt.ToString( "yyyy-MM-dd"));
sw.Stop();
Console.WriteLine( "測試用時: " + sw.ElapsedMilliseconds + "ms");
Console.WriteLine( "測試完成! ");
Console.ReadLine();
4 日期正則表達式擴展
4.1 「年月日」形式擴展
以上實現的是yyyy-MM-dd格式的日期驗證,考慮到連字符的不一樣,以及月和日可能爲Md,即yyyy-M-d的格式,能夠對以上正則進行擴展
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])([-/.]?)(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])([-/.]?)(?:29|30)|(?:0?[13578]|1[02])([-/.]?)31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2([-/.]?)29)$
使用反向引用進行簡化,年份0001-9999,格式yyyy-MM-ddyyyy-M-d,連字符能夠沒有或是「-」、「/」、「.」之一。
^(?:(?!0000)[0-9]{4}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])\1(?:29|30)|(?:0?[13578]|1[02])\1(?:31))|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)([-/.]?)0?2\2(?:29))$
這就是「年月日」這種形式最全的一個正則了,不一樣含義部分以不一樣顏色標識,能夠根據本身的須要進行栽剪。
4.2 其它形式擴展
瞭解了以上正則各部分表明的含義,互相間的關係後,就很容易擴展成其它格式的日期正則,如dd/MM/yyyy這種「日月年」格式的日期。
^(?:(?:(?:0?[1-9]|1[0-9]|2[0-8])([-/.]?)(?:0?[1-9]|1[0-2])|(?:29|30)([-/.]?)(?:0?[13-9]|1[0-2])|31([-/.]?)(?:0?[13578]|1[02]))([-/.]?)(?!0000)[0-9]{4}|29([-/.]?)0?2([-/.]?)(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00))$
這種格式須要注意的就是不能用反向引用來進行優了。連字符等可根據本身的需求栽剪。
4.3 添加時間的擴展
時間的規格很明確,也很簡單,基本上就HH:mm:ssH:m:s兩種形式。
([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]
合入到日期的正則中,yyyy-MM-dd HH:mm:ss
^(?:(?!0000)[0-9]{4}-(?:(?:0[1-9]|1[0-2])-(?:0[1-9]|1[0-9]|2[0-8])|(?:0[13-9]|1[0-2])-(?:29|30)|(?:0[13578]|1[02])-31)|(?:[0-9]{2}(?:0[48]|[2468][048]|[13579][26])|(?:0[48]|[2468][048]|[13579][26])00)-02-29)\s+([01][0-9]|2[0-3]):[0-5][0-9]:[0-5][0-9]$
4.4 年份定製
以上全部涉及到平年的年份裏,使用的是0001-9999。固然,年份也能夠根據閏年規則定製。
如年份1600-9999,格式yyyy-MM-ddyyyy-M-d,連字符能夠沒有或是「-」、「/」、「.」之一。
^(?:(?:1[6-9]|[2-9][0-9])[0-9]{2}([-/.]?)(?:(?:0?[1-9]|1[0-2])\1(?:0?[1-9]|1[0-9]|2[0-8])|(?:0?[13-9]|1[0-2])\1(?:29|30)|(?:0?[13578]|1[02])\1(?:31))|(?:(?:1[6-9]|[2-9][0-9])(?:0[48]|[2468][048]|[13579][26])|(?:16|[2468][048]|[3579][26])00)([-/.]?)0?2\2(?:29))$
5 特別說明
以上正則採用的是最基本的正則語法規則,絕大多數採用傳統NFA引擎的語言均可以支持,包括JavaScriptJava.NET等。
另外需求說明的是,雖然日期的規則相對明確,能夠採用這種方式裁剪來獲得符合要求的日期正則,可是並不推薦這樣使用正則,正則的強大在於它的靈活性,能夠根據需求,量身打造最合適的正則,若是隻是用來套用模板,那正則也就不稱其爲正則了。
正則的語法規則並很少,並且很容易入門,掌握語法規則,量體裁衣,纔是正則之「道」。
相關文章
相關標籤/搜索