mySql的UDF是什麼

CRUD:添刪改查mysql

UDF是mysql的一個拓展接口,UDF(Userdefined function)可翻譯爲用戶自定義函數,這個是用來拓展Mysql的技術手段。sql

1 MySQL簡介

MySQL是最流行的開放源碼SQL數據庫管理系統,相對於Oracle,DB2等大型數據庫系統,MySQL因爲其開源性、易用性、穩定性等特色,受到我的使用者、中小型企業甚至一些大型企業的普遍歡迎,MySQL具備如下特色:數據庫

l  MySQL是一種關聯數據庫管理系統,關聯數據庫將數據保存在不一樣的表中,而不是將全部數據放在一個大的倉庫內,這樣就增長了速度並提升了靈活性。安全

l  MySQL軟件是一種開放源碼軟件。服務器

l  MySQL數據庫服務器具備快速、可靠和易於使用的特色。數據結構

l  MySQL服務器工做在客戶端/服務器模式下,或嵌入式系統中。函數

l  有大量可用的共享MySQL軟件。ui

2 MySQL內置函數

使用過MySQL的人都知道,MySQL有不少內置函數提供給使用者,包括字符串函數、數值函數、日期和時間函數等,給開發人員和使用者帶來了不少方便。下面給幾個例子:編碼

l  字符串函數插件

mysql> select ASCII('2');

+------------+

| ASCII('2') |

+------------+

|      50 |

+------------+

打印字符的ASCII編碼。

l  數值函數

mysql> SELECT LOG(10,100);

+-------------+

| LOG(10,100) |

+-------------+

|          2 |

+-------------+

打印以10爲底,100的對數值。

l  日期和時間函數

mysql> SELECT CURDATE();

+------------+

| CURDATE()  |

+------------+

| 2011-11-11 |

+------------+

打印當前的日期。

 

這裏簡單舉幾個例子,若是想了解MySQL函數的全貌,請訪問Mysql官方手冊http://dev.mysql.com/doc/#manual.

3 擴展MySQL函數------ UDF

MySQL的內置函數雖然豐富,但畢竟不能知足全部人的須要,有時候咱們須要對錶中的數據進行一些處理而內置函數不能知足須要的時候,就須要對MySQL進行一些擴展,幸運的是,MySQL給使用者提供了添加新函數的機制,這種使用者自行添加的MySQL函數就稱爲UDF(User Define Function)。其實除了UDF外,使用者還能夠將函數添加爲MySQL的固有(內建)函數,固有函數被編譯進mysqld服務器中,稱爲永久可用的,不過這種方式較添加UDF

複雜,升級維護都較爲麻煩,這裏咱們不作討論。

不管你使用哪一種方法去添加新函數,它們均可以被SQL聲明調用,就像 ABS()或SUM()這樣的固有函數同樣。

3.1 UDF的特性

l  函數能返回字符串,整數或實數。

l  你能夠定義一次做用於一行的簡單函數,或做用於多行的組的集合函數。

l  提供給函數的信息使得函數能夠檢查傳遞給它們的參量的數目和類型。

l  你可讓MySQL在將某參量傳遞給函數以前強制其爲某一類型。

l  你能夠表示函數返回NULL 或發生錯誤。

3.2 CREATE FUNCTION/DROP FUNCTION語法

CREATE [AGGREGATE] FUNCTION function_name RETURNS {STRING|INTEGER|REAL}

       SONAME shared_library_name

 

DROP FUNCTION function_name

一個自定義函數 (UDF) 就是用一個象ABS()或SUM()這樣的固有(內建)函數同樣做用的新函數去擴展MySQL。

function_name 是用在SQL聲明中以備調用的函數名字。RETURNS 子句說明函數返回值的類型。shared_library_name 是共享目標文件的基本名,共享目標文件含有實現函數的代碼。該文件必須位於一個能被你係統的動態鏈接者搜索的目錄裏。

你必須有mysql 數據庫的INSERT 權限才能建立一個函數,你必須有mysql 數據庫的DELETE權限才能撤銷一個函數。這是由於CREATE FUNCTION 往記錄函數名字,類型和共享名的mysql.func系統表裏添加了一行,而DROP FUNCTION則是從表中刪掉這一行。

值得注意的是,要使得UDF機制可以起做用,必須使用C或者C++編寫函數,你的系統必須支持動態加載,並且你必須是動態編譯的mysqld(非靜態)。

3.3 定義UDF

對於每一個你想要使用在SQL聲明中的函數,你應該定義相應的C(或C++)函數。

你爲xxx()編寫來實現接口的C/C++函數以下:

l  xxx() (必有)

主函數。這是函數結果被計算的地方。SQL函數數據類型與C/C++函數返回類型的對應關係以下:

SQL 類型

C/C++ 類型

STRING

char *

INTEGER

long long

REAL

double

l  xxx_init() (可選)

對xxx()的初始化函數。它能夠被用來:

檢查傳遞給xxx()的參量數目。

檢查參量是否爲必需的類型,或者,除此以外,在主函數被調用的時候告訴MySQL將參量強制爲想要的類型。

分配主函數須要的內存。

指定結果的最大長度。

指定(對於REAL 函數)小數的最多位數。

指定結果是否能夠爲 NULL。

l  xxx_deinit() (可選)

對xxx()的去初始化函數。它釋放初始化函數分配的內存。

 

當SQL聲明調用XXX()時,MySQL調用初始化函數xxx_init(),讓它執行必要的設置,好比,檢查參量或分配內存。若是xxx_init()返回一個錯誤,SQL聲明會退出並給出錯誤信息,而主函數和去初始化函數並無被調用。不然,主函數xxx()對每一行都被調用一次。全部行都處理完以後,調用去初始化函數xxx_deinit()執行必要的清除。

 

對於象SUM()同樣工做的集合函數,你也必須提供以下的函數:

l  xxx_clear()(在5.1版本中必須)

對一個新組重置當前集合值爲初試集合值,但不插入任何參量。

l  xxx_add()(必須)

添加參量到當前集合值。

MySQL按下列操做來處理集合UDF:

1.       調用 xxx_init() 讓集合函數分配它須要用來存儲結果的內存。

2.       按照GROUP BY表達式來排序表。

3.       爲每一個新組中的第一行調用xxx_clear()函數。

4.       爲屬於同組的每個新行調用xxx_add()函數。

5.       當組改變時或每組的最後一行被處理完以後,調用xxx()來獲取集合結果。

6.       重複,以上3步直到全部行被處理完。

7.       調用xxx_deinit() 函數去釋放UDF分配的內存。

全部函數必須時線程安全的,這不只對主函數,對初始化和去初始化函數也同樣,也包括集合函數要求的附加函數。這個要求的一個結果就是,你不能分配任何變化的全局或靜態變量。若是你須要內存,你能夠在xxx_init()函數分配內存,而後在xxx_deinit()函數釋放掉。

3.3.1 主要數據結構

UDF_INIT

typedef struct st_udf_init

{

  my_bool maybe_null;                           /* 1 if function can return NULL */

  unsigned int decimals;                 /* for real functions */

  unsigned long max_length;       /* For string functions */

  char       *ptr;                                /* free pointer for function data */

  my_bool const_item;                            /* 0 if result is independent of arguments */

} UDF_INIT;

l  my_bool maybe_null

若是xxx()能返回NULL,xxx_init()應使maybe_null爲1。其默認值是1。

l  unsigned int decimals

小數位數。默認值是傳到主函數的參量裏小數的最大位數。(例如,若是函數傳遞 1.34, 1.345, 和1.3, 那麼默認值爲3,由於1.345 有3位小數。

l  unsigned int max_length

結果的最大長度。max_length的默認值因函數的結果類型而異。對字符串函數,默認值是結果的最大長度。對整型函數,默認是21位。對實型函數,默認是13再加上initid->decimals指示的小數位數。(對數字函數,長度包含正負號或者小數點符)。

若是想返回團值,你能夠把max_length 設爲從65KB到16MB。這個內存不會被分配,可是若是有臨時數據須要存儲,這個設置了的值被用來決定使用哪一種列的類型。

l  char *ptr

函數能夠用做自己目的的指針。好比,函數能夠用initid->ptr來在分配了的內存內部通信。 xxx_init()應該分配內存,並指派給這個指針:

initid->ptr = allocated_memory;

在 xxx() 和 xxx_deinit()中,借用initid->ptr來使用或釋放內存。

UDF_ARGS

enum Item_result /* 返回結果類型 */

{

STRING_RESULT=0,

REAL_RESULT,

INT_RESULT,

ROW_RESULT,

  DECIMAL_RESULT

};

typedef struct st_udf_args

{

  unsigned int arg_count;             /* Number of arguments */

  enum Item_result *arg_type;   /* Pointer to item_results */

  char **args;                                              /* Pointer to argument */

  unsigned long *lengths;             /* Length of string arguments */

  char *maybe_null;                                 /* Set to 1 for all maybe_null args */

  char **attributes;                                   /* Pointer to attribute name */

  unsigned long *attribute_lengths;/* Length of attribute arguments */

} UDF_ARGS;

l  unsigned int arg_count

參數個數。若是你須要你的函數帶着某個數目的參量被調用,在初始化函數檢查這個值,例如:

if (args->arg_count != 2)
{
    strcpy(message,"XXX() requires two arguments");
    return 1;
}

l  enum Item_result *arg_type

參數類型列表。要確信一個參量是給定類型的,而且若是不是的話就返回一個錯誤,請檢查初始化函數中的arg_type數列。好比:

if (args->arg_type[0] != STRING_RESULT ||
    args->arg_type[1] != INT_RESULT)
{
    strcpy(message,"XXX() requires a string and an integer");
    return 1;
}

要求你函數的參量是某一類型的另外一方法是,使用初始化函數設置arg_type元素爲你想要的類型。對全部對xxx()的調用而言,這會致使MySQL強制參量爲這些類型。好比,要指定頭兩個參量強制成字符串和整數,在xxx_init()中分別:

args->arg_type[0] = STRING_RESULT;
args->arg_type[1] = INT_RESULT;

l  char **args 參數列表

對主函數的每次調用,args->args 包含爲每一個當前處理的行傳遞的實際參量。

以下使用參量i的函數:

給一個STRING_RESULT 型的參量做爲一個字符串加一個長度,能夠容許全部二進制數或任意長度的數處理。字符串內容做爲args->args[i],而字符串長度爲args->lengths[i]。你不能採用null結尾的字符串。

對一個INT_RESULT型的參量,你必須轉換args->args[i]爲一個long long值:

long long int_val;
int_val = *((long long*) args->args[i]);

對一個REAL_RESULT型參量,你必須轉換args->args[i]爲一個雙精度值:

double    real_val;
real_val = *((double*) args->args[i]);

l  unsigned long *lengths

對初始化函數,lengths數列表示對每一個參量的最大字符串長度。你不要改變它。對主函數的每次調用,lengths包含了對當前處理行傳遞的任何字符串參量的實際長度。對於INT_RESULT或 REAL_RESULT類型的參量,lengths仍包含參量的最大長度(對初始化函數)。

3.3.2 簡單函數

這裏說明簡單SQL函數的C/C++主函數xxx()的編寫,注意返回值和參數會有所不一樣,這取決於你說明的SQL函數xxx()在CREATE FUNCTION聲明中返回的是STRING,INTEGER類型仍是REAL類型。

對於STRING型函數:

char *xxx(UDF_INIT *initid, UDF_ARGS *args,
          char *result, unsigned long *length,
          char *is_null, char *error);

對於INTEGER型函數:

long long xxx(UDF_INIT *initid, UDF_ARGS *args,
              char *is_null, char *error);

對於REAL型函數:

double xxx(UDF_INIT *initid, UDF_ARGS *args,
              char *is_null, char *error);

初始化和去初始化函數以下說明:

my_bool xxx_init(UDF_INIT *initid, UDF_ARGS *args, char *message);
void xxx_deinit(UDF_INIT *initid);

initid參數被傳遞給全部的三個函數。它指向UDF_INIT結構,這個結構被用來在函數之間交換信息。

3.3.3 集合函數

這裏介紹建立集合UDF之時須要定義的不一樣函數。

l  xxx_reset()

當MySQL在一個新組中發現第一行時調用這個函數。它對這個組重置任何內部總和變量,而後使用給定的UDF_ARGS參量做爲內部總和值的第一個值。以下說明 xxx_reset() 函數:

char *xxx_reset(UDF_INIT *initid, UDF_ARGS *args,
                char *is_null, char *error);

在MySQL5.1版中UDF接口不須要或不使用xxx_reset()函數,而是使用xxx_clear()函數做爲替代。可是若是你想讓UDF也能在老版本的服務器上運行,你也能夠定義 xxx_reset() 和 xxx_clear()函數。(若是你使用了這兩個函數,xxx_reset()函數在不少狀況下能夠經過調用函數來內部實現,即調用xxx_clear()函數重置全部變量,而後添加UDF_ARGS參量做爲組的第一個值。)

l  xxx_clear()

當MySQL須要重置總和結果時調用此函數。對每個新組,在開始之時調用它,可是它也能夠被調用來爲一個沒有匹配行在其中的查詢重置值。以下說明xxx_clear():

char *xxx_clear(UDF_INIT *initid, char *is_null, char *error);

在調用xxx_clear()以前is_null被設置指向CHAR(0)。

若是發生錯誤,你能夠存儲一個值在error參量指向的變量中。error指向一單字節變量,而不是一個字符串緩衝區。

xxx_clear()是MySQL 5.1必須的。

l  xxx_add()

爲同組全部的行調用這個函數。你應該用它在UDF_ARGS參量中向內部總和變量加值。

char *xxx_add(UDF_INIT *initid, UDF_ARGS *args,
              char *is_null, char *error);

對集合UDF而言xxx() 函數應該用與非集合UDF同樣的方法來講明。

對一個集合UDF,MySQL在組內全部行被處理以後調用xxx()函數。這裏你應該通常不會接觸到它的UDF_ARGS參量,可是取而代之地根據內部總和變量返回給你值。

is_null和error的指針參量和全部到xxx_reset(), xxx_clear(), xxx_add() 和 xxx()調用同樣。你能夠用這個來提醒你獲取一個錯誤或不管xxx()是否返回NULL的一個結果。你不能把一個字符串存到error!error指向單字節變量而不是字符串緩衝區。

*is_null 對每個組都重置(調用xxx_clear()前),*error 從不重置。

若是xxx()返回時,*is_null或*error被設置,MySQL返回NULL做爲組函數的結果。

3.3.4 錯誤處理

若是沒有錯誤發生,初始化函數應該返回0,不然就返回1。若是有錯誤發生,xxx_init() 應該在message 參數存儲一個以null結尾的錯誤消息。該消息被返回給客戶端。消息緩衝區是MYSQL_ERRMSG_SIZE 字符長度,但你應該試着把消息保持在少於80個字符,以便它能適合標準終端屏幕的寬度。

對於long long 和 double 類型的函數,主函數 xxx()的返回值是函數值。字符函數返回一個指向結果的指針,而且設置 *result 和 *length  爲返回值的內容和長度。例如:

memcpy(result, "result string", 13);
*length = 13;

被傳給 xxx() 函數的結果緩衝區是 255 字節長。若是你的結果適合這個長度,你就不須要擔憂對結果的內存分配。

若是字符串函數須要返回一個超過255字節的字符串,你必須用 malloc() 在你的 xxx_init() 函數或者xxx()函數裏爲字符串分配空間,而且在 xxx_deinit() 函數裏釋放此空間。你能夠將已分配內存存儲在UDF_INIT 結構裏的ptr位置以備未來 xxx() 調用。

要在主函數中指明一個NULL的返回值,設置*is_null爲1:

*is_null = 1;

要在主函數中指明錯誤返回,設置 *error 爲 1:

*error = 1;

若是xxx()對任意行設置*error爲1 ,對於任何 XXX()被調用的語句處理的當前行和隨後的任意行,該函數值爲NULL(甚至都不爲隨後的行調用 xxx())。

4 範例

4.1 編譯安裝

安裝mysql開發包

[root@rocket mysql_udf]# yum -y install mysql-devel

編譯udf連接庫

代碼:udf_str.cpp

 
#include <mysql.h>
#include <mysql_com.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <algorithm>

extern "C"
{
// str_reverse
my_bool str_reverse_init(UDF_INIT* initid, UDF_ARGS* args, char* message);
void str_reverse_deinit(UDF_INIT* initid);
char* str_reverse(UDF_INIT* initid, UDF_ARGS* args, char* result, unsigned long* length, char* is_null, char *error);

// LengthAll
my_bool mysum_init(UDF_INIT* initid, UDF_ARGS* args, char* message);
void mysum_deinit(UDF_INIT* initid);
void mysum_reset(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error);
void mysum_clear(UDF_INIT *initid, char *is_null, char *error);
void mysum_add(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error);
long long mysum(UDF_INIT *initid, UDF_ARGS *args, char *result, unsigned long *length, char *is_null, char *error);

}

char* StrData = 0;
int gSum = 0;

// str_reverse ==================================================
my_bool str_reverse_init(UDF_INIT* initid, UDF_ARGS* args, char* message)
{
    if (args->arg_count != 1)
    {    
        strcpy(message,"wrong number of arguments: str_reverse() requires one argument");    
        return 1;  
    }
    
    if (args->arg_type[0] != STRING_RESULT)  
    {    
        strcpy(message,"str_reverse() requires a string as parameter");    
        return 1;  
    }
    
    StrData = (char*)malloc(4096);
    memset(StrData, 0, 4096);
    
    initid->maybe_null = 1;  
    initid->max_length = 32; 
    initid->ptr = StrData;

    return 0;
}

void str_reverse_deinit(UDF_INIT* initid)
{  
    free(StrData);
}

char* str_reverse(UDF_INIT* initid, UDF_ARGS* args, char* result, unsigned long* length, char* is_null, char *error)
{
    if (args->arg_type[0] == STRING_RESULT)
    {   
        if (strlen(args->args[0]) > 256)
        {
            strncpy(StrData, args->args[0], 4096);
            StrData[4096-1] = 0;

            std::reverse(StrData, StrData + strlen(StrData));
            return StrData;
        }
        else
        {
            strncpy(result, args->args[0], 256);
            result[256-1] = 0;
            
            std::reverse(result, result + strlen(result));
            *length = (unsigned long)strlen(result);
            return result;
        }
    }

    return NULL;
}

// LengthAll ==================================================
my_bool mysum_init(UDF_INIT* initid, UDF_ARGS* args, char* message)
{
    if (args->arg_count != 1)  
    {    
        strcpy(message,"wrong number of arguments: mysum() requires one argument");    
        return 1;  
    }

    if (args->arg_type[0] != INT_RESULT)  
    {    
        strcpy(message,"wrong argument type of arguments: mysum() requires int");    
        return 1;  
    }

    gSum = 0;
    return 0;
}

void mysum_deinit(UDF_INIT* initid)
{    
}

void mysum_reset(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error)
{
    gSum = 0;
}

void mysum_clear(UDF_INIT *initid, char *is_null, char *error)
{
    gSum = 0;
}

void mysum_add(UDF_INIT *initid, UDF_ARGS *args, char *is_null, char *error)
{
    gSum += *(int*)(args->args[0]);
}

long long mysum(UDF_INIT *initid, UDF_ARGS *args, char *result, unsigned long *length, char *is_null, char *error)
{
    return gSum;
}
 

[root@rocket mysql_udf]# g++ -I/usr/include/mysql -shared -fPIC -o udf_str.so udf_str.cpp

查找插件路徑

 

 

安裝插件函數

DROP FUNCTION IF EXISTS str_reverse;

DROP FUNCTION IF EXISTS mysum;

CREATE FUNCTION str_reverse RETURNS string SONAME 'udf_str.so';

CREATE AGGREGATE FUNCTION mysum RETURNS INTEGER SONAME 'udf_str.so';

注意這裏的返回值不能寫錯,否則運行的時候mysql服務器會崩潰!

 

查看安裝結果

 

4.2 運行

運行str_reverse

 

 

運行mysum,先建立一些數據

mysql> create database test;

mysql> use test;

mysql> CREATE TABLE salary( name varchar(64) NOT NULL DEFAULT '' COMMENT 'name', salary int(11) NOT NULL DEFAULT 0 COMMENT 'salary', primary key(name) )ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT 'test';

 

mysql> insert into salary values ('zhangsan', 11380), ('lisi', 12000), ('wangwu', 8789);

 

 

mysql> select mysum(name) from salary;

ERROR 1123 (HY000): Can't initialize function 'mysum'; wrong argument type of arguments: mysum() requires int

這裏故意使用name爲參數,能夠看到咱們在程序裏打印的錯誤信息。

 

執行正確的語句

 

能夠看到mysum實現了和內置函數sum同樣的功能。

相關文章
相關標籤/搜索