ABBYY FineReader是一款OCR文字識別軟件,在識別文本時,可經過建立自定義語言,識別包含不少很是用元素(如代碼編號)的文本字符,今天就爲你們列出了在ABBYY FineReader用於建立自定義語言詞典的正則表達式具體方法。html
如有疑問可直接訪問:http://www.abbyychina.com/FRshiyongjiqiao/abbyyfr-zhengzebds.html正則表達式
注:spa
一、要將正則表達式符號做爲正常字符使用,請在符號前添加反斜線。例如,[t-v]x+ 表明tx、txx、txx 等和ux、uxx等,而\[t-v\]x+則表明[t-v]x、[t-v]xx、[t-v]xxx等。htm
二、要分組正則表達式元素,請使用括號。例如,(a|b)+|c表明c或任何相似abbbaaabbb、ababab的組合(任何長度非零、其中可能有按任意順序排列的任意個數的a和b的單詞),而a|b+|c則表明a、c和b、bb、bbb等。 get
示例:軟件
假設識別包含三列的表格:出生日期、姓名、電子郵件地址,在這種狀況下,能夠建立兩種新語言、數據和地址,併爲它們指定如下正則表達式:方法
日期的正則表達式:im
表示日的數字可由一位數字(一、2 等)或兩位數字(0二、12)組成,但不能爲零(00 或 0),日的正則表達式應顯示爲:((|0)[1-9])|([1|2][0-9])|(30)|(31);數據
月的正則表達式應顯示爲:((|0)[1-9])|(10)|(11)|(12);img
年的正則表達式應顯示爲:([19][0-9][0-9]|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])。
接下來,須要將全部這些組合起來並用句點隔開數字(如 1.03.1999),句點也是正則表達式符號,因此必須在前面添加反斜線 (\),所以,完整日期的正則表達式應顯示爲: ((|0)[1-9])|([1|2][0-9])|(30)|(31)\.((|0)[1-9])|(10)|(11)|(12)\.((19)[0-9][0-9])|([0-9][0-9])|([20][0-9][0-9]|([0-9][0-9])
電子郵件地址的正則表達式:
[a-zA-Z0-9_\-\.]+\@[a-z0-9\.\-]+
以上就是用於建立自定義語言詞典的正則表達式的具體方法了,但願同屬上述內容的描述可以幫助你們對於ABBYY FineReader中關於自定義語言詞典的正則表達式中正則表達式的建立以及運用,有一個更詳細的認識和運用。