C語言用regcomp、regexec、regfree和regerror函數實現正則表達式校驗

時間 2019-11-11

標籤 c語言 regcomp regexec regfree regerror 函數實現正則表達式校驗欄目正則表達式简体版

原文原文鏈接

　　前言

　　　首先，祝你們國慶假期玩的嗨皮！可能有的人已經在回家的路上了，是否是都看不到個人真摯祝福了？linux

　　　C語言對於一些東西的封裝比較少，好比正則表達式，但速度快一直使它立於不敗之地，今天就要介紹如何用C封裝。正則表達式

　　　1、正則表達式

　　一、介紹

　　　　應該都聽過正則吧？主要應用在字符串匹配，並且它是通用的，各類語言都支持。例如能夠用它匹配IP地址、郵箱等。舉個例子說明一下正則有啥用：編程

　　　　例如，我在的公司，頁面用PHP，後臺用C，當添加用戶郵箱時，咱們老大就要求：PHP和C都要對用戶輸入的用戶郵箱進行校驗，這時正則表達式就派上用場了。數組

　　　二、grep命令　　　　

　　　　我會用grep進行簡單的舉例，因此要簡單介紹一下。　　　　編程語言

　　　　grep是一種查找過濾工具，正則表達式在grep中用來查找符合模式的字符串。其實正則表達式還有一個重要的應用是驗證用戶輸入是否合法，例如用戶經過網頁表單提交本身的email地址，就須要用程序驗證一下是否是合法的email地址，這個工做能夠在網頁的Javascript中作，也能夠在網站後臺的程序中作，例如PHP、Perl、Python、Ruby、Java或C，全部這些語言都支持正則表達式，能夠說，目前不支持正則表達式的編程語言實在不多見。ide

　　　　egrep至關於grep -E，表示採用Extended正則表達式語法。函數

　　　　注意grep找的是包含某一模式的行，而不是徹底匹配某一模式的行。工具

　　　三、基本語法

　　　　對於正則表達式的語法，我只列出比較常見的，基本就夠用了，若是有興趣的能夠再去網上學習，去深刻了解。

　　　　字符類

　　　數量限定符

　　　位置限定符

　　舉例：查找IP的正則學習

　　用^[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}$查找網站

　　其它特殊字符

　　四、分類

　　大體分爲兩類：Basic正則和Extended正則

　　區別：

　　以上介紹的是grep正則表達式的Extended規範，Basic規範也有這些語法，只是字符?+{}|()應解釋爲普通字符，要表示上述特殊含義則須要加\轉義。若是用grep而不是egrep，而且不加-E參數，則應該遵守Basic規範來寫正則表達式。

　　2、正則表達式相關函數

　　C語言處理正則表達式經常使用的函數有regcomp()、regexec()、regfree()和regerror()

　　C語言中使用正則表達式通常分爲三步：

編譯正則表達式 regcomp()
匹配正則表達式 regexec()
釋放正則表達式 regfree()

　　下邊將對三個函數的詳細解釋。

　　一、regcomp函數

　　功能：這個函數把指定的正則表達式pattern編譯成一種特定的數據格式compiled，這樣可使匹配更有效。

　　原型：int regcomp(regex_t *preg, const char *regex, int cflags);

　　參數說明：　

　　regex_t 是一個結構體數據類型，用來存放編譯後的正則表達式，它的成員re_nsub 用來存儲正則表達式中的子正則表達式的個數，子正則表達式就是用圓括號包起來的部分表達式。

　參數regex：是指向咱們寫好的正則表達式的指針。

　參數cflags：有以下4個值或者是它們或運算(|)後的值：

REG_EXTENDED 以功能更增強大的擴展正則表達式的方式進行匹配。

REG_ICASE 　匹配字母時忽略大小寫。

REG_NOSUB 不用存儲匹配後的結果,只返回是否成功匹配。若是設置該標誌位，那麼在regexec（在下邊介紹）將忽略nmatch和pmatch兩個參數。

REG_NEWLINE 識別換行符，這樣'$'就能夠從行尾開始匹配，'^'就能夠從行的開頭開始匹配。

　　二、regexec函數

　　功能：函數regexec 會使用這個數據在目標文本串中進行模式匹配。　

　　原型：int regexec(const regex_t *preg, const char *string, size_t nmatch,regmatch_t pmatch[], int eflags);

　　先來介紹下參數4中的regmatch_t結構體：　

　　regmatch_t 是一個結構體數據類型，在regex.h中定義：

typedef struct {

regoff_t rm_so;

regoff_t rm_eo;

} regmatch_t;

　　成員rm_so 存放匹配文本串在目標串中的開始位置，rm_eo 存放結束位置。一般咱們以數組的形式定義一組這樣的結構。

　　參數說明：　

　　preg 是已經用regcomp函數編譯好的正則表達式。

　　string 是目標文本串。

　　nmatch 是regmatch_t結構體數組的長度。

　　matchptr regmatch_t類型的結構體數組，存放匹配文本串的位置信息。

　　eflags 有兩個值:

　REG_NOTBOL 讓特殊字符^無做用

REG_NOTEOL 讓特殊字符＄無做用

　　三、regfree函數

　　功能：能夠用這個函數清空regex_t結構體的內容　　

　　原型：void regfree(regex_t *preg);

　　四、regerror函數

　　功能：當執行regcomp 或者regexec 產生錯誤的時候，就能夠調用這個函數而返回一個包含錯誤信息的字符串。

　　原型：size_t regerror(int errcode, const regex_t *preg, char *errbuf,size_t errbuf_size);

　　參數說明：

　　errcode 是由regcomp 和 regexec 函數返回的錯誤代號。

　　preg 是已經用regcomp函數編譯好的正則表達式，這個值能夠爲NULL。

　　errbuf 指向用來存放錯誤信息的字符串的內存空間。

　　errbuf_size 指明buffer的長度，若是這個錯誤信息的長度大於這個值，則regerror 函數會自動截斷超出的字符串，但他仍然會返回完整的字符串的長度。因此咱們能夠用以下的方法先獲得錯誤字符串的長度。

　　3、程序示例

　　輸入兩個參數，第一個參數：正則表達式，第二個參數：字符串，校驗是否匹配，程序以下：

#include <sys/types.h>
#include <regex.h>
#include <stdio.h>

int main(int argc, char ** argv)
{
    if (argc != 3) {
        printf("Usage: %s RegexString Text\n", argv[0]);
        return 1;
    }
    const char * pregexstr = argv[1];
    const char * ptext = argv[2];
    regex_t oregex;
    int nerrcode = 0;
    char szerrmsg[1024] = {0};
    size_t unerrmsglen = 0;
    if ((nerrcode = regcomp(&oregex, pregexstr, REG_EXTENDED|REG_NOSUB)) == 0) {
        if ((nerrcode = regexec(&oregex, ptext, 0, NULL, 0)) == 0)    {
            printf("%s matches %s\n", ptext, pregexstr);
            regfree(&oregex);
            return 0;
        }
    }
    unerrmsglen = regerror(nerrcode, &oregex, szerrmsg, sizeof(szerrmsg));
    unerrmsglen = unerrmsglen < sizeof(szerrmsg) ? unerrmsglen : sizeof(szerrmsg) - 1;
    szerrmsg[unerrmsglen] = '\0';
    printf("ErrMsg: %s\n", szerrmsg);
    regfree(&oregex);

    return 1;
}