基於數據庫的模糊匹配(運行時字符串查找,查詢速度比較慢)html
專有的全文檢索引擎(sphinx, lucene等)mysql
我曾經遇到一個項目,數據量在百萬級別,不須要高級的全文檢索方式(沒有複雜的匹配需求,沒有複雜的過濾條件),只是須要根據關鍵詞檢索數據,當時採用的 mysql 全文檢索插件的方式來知足的項目需求。算法
Mysql 的 MyISAM 引擎支持第三方的全文檢索插件,能夠用第三方插件替換默認的全文檢索插件。sql
在全文檢索插件中提供中文分詞算法,告訴MyISAM如何分詞,並建立索引。數據庫
查詢的時候經過插件分詞,查詢索引快速定位數據記錄。數據結構
主要經過代碼註釋描述插件的開發方法,建立文件 tft.c,代碼以下函數
#include <stdlib.h> #include <ctype.h> // mysql 插件必須包含的頭文件 #include <mysql/plugin.h> // 這是我本身寫的一個分詞庫,沒有什麼優化,能夠替換爲其餘開源的實現。 #include <st_darts.h> #include <st_utils.h> #if !defined(__attribute__) && (defined(__cplusplus) \ || !defined(__GNUC__) || __GNUC__ == 2 && __GNUC_MINOR__ < 8) #define __attribute__(A) #endif // 進行插件內部狀態統計的變量 static long number_of_calls= 0; /* 統計調用的次數 */ /* tft 接口: 插件的初始化,卸載函數: - tft_plugin_init() - tft_plugin_deinit() 解析接口: - tft_parse() - tft_init() - tft_deinit() */ // 我開發的分詞庫依賴的詞庫 static char* g_s_dictFile="/home/dev/work/ppr/tft/dict_chs.dic"; // 分詞庫的 handler static st_darts* g_s_pDarts = NULL; /* 插件被加載時的初始化函數 返回值 0 成功 1 失敗 */ static int tft_plugin_init(void *arg __attribute__((unused))){ // 分詞器的初始化代碼 g_s_pDarts = stDartsLoad(g_s_dictFile); stLog("load tft plugin succ."); return(0); } /* 插件被卸載時的資源釋放函數 返回值 0 成功 1 失敗 */ static int tft_plugin_deinit(void *arg __attribute__((unused))){ // 卸載分詞器 stDartsFree(g_s_pDarts); stLog("free tft plugin succ."); return(0); } /* 查詢開始時運行的代碼,目前不須要特殊處理 */ static int tft_init(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){ return(0); } /* 查詢結束時運行的代碼,目前不須要特殊處理 */ static int tft_deinit(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){ return(0); } /* 返回一個提取的詞給 server 參數: param 插件的解析環境 word 詞 len 詞長度 描述: 若是傳遞了 boolean 模式,則爲這個詞填充 boolean 元數據。 建立索引的時候調用這個函數添加索引詞,查詢的時候調用這個函數添加查詢詞 */ static void add_word(MYSQL_FTPARSER_PARAM *param, char *word, size_t len){ // boolean 查詢模式 MYSQL_FTPARSER_BOOLEAN_INFO bool_info= { FT_TOKEN_WORD, 0, 0, 0, 0, ' ', 0 }; if (param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO){ bool_info.yesno = 1; } // 傳遞詞給 mysql,用來建立索引,或者查詢。 param->mysql_add_word(param, word, len, &bool_info); } /* 英文分詞簡單處理,用空格分隔 param 插件環境 描述: 解析英文的文檔或者查詢詞,傳遞給 mysql 的索引引擎,用來建立索引,或者進行查詢。 */ static int tft_parse_en(MYSQL_FTPARSER_PARAM *param){ char *end, *start, *docend= param->doc + param->length; number_of_calls++; for (end= start= param->doc;; end++) { if (end == docend) { if (end > start) add_word(param, start, end - start); break; } else if (isspace(*end)) { if (end > start) add_word(param, start, end - start); start= end + 1; } } return 0; } /* 分詞函數,對文檔或者查詢詞進行分詞。若是是全英文文檔,則調用英文分詞。*/ #define c_uWordsCount 1024 static int tft_parse(MYSQL_FTPARSER_PARAM *param){ if (NULL == param->doc || 0 == param->length){ return 0; } // 統計調用次數 number_of_calls++; st_timer stTimerType = ST_TIMER_MICRO_SEC; char* start = param->doc; char* docend = param->doc + param->length; // 初始化分詞 handler struct st_wordInfo wordInfo[c_uWordsCount] = { { 0, 0, 0 } }; st_darts_state dState; stDartsStateInit(g_s_pDarts, &dState, start, docend); uint32_t uWordsCount = 0; long long queryBeginTime = stTimer(stTimerType); // 循環獲取中文分詞 while(uWordsCount < c_uWordsCount && stDartsNextWord(g_s_pDarts, &dState, &wordInfo[uWordsCount])){ ++uWordsCount; } long long queryEndTime = stTimer(stTimerType); stLog("result=%u, cost time=%lldus", uWordsCount, queryEndTime - queryBeginTime); // 檢測是不是英文 if(uWordsCount == 0){ tft_parse_en(param); } // 傳遞分詞給 mysql ,用來建立索引,或者執行查詢 for (int i = 0; i < uWordsCount; ++i){ add_word(param, wordInfo[i].pWord, wordInfo[i].wordLen); } return(0); } /* 插件的接口聲明*/ static struct st_mysql_ftparser tft_descriptor={ MYSQL_FTPARSER_INTERFACE_VERSION, /* interface version */ tft_parse, /* 解析函數 */ tft_init, /* 初始函數 */ tft_deinit /* 清理函數 */ }; /* 插件的狀態變量聲明*/ static struct st_mysql_show_var tft_status[]={ {"static", (char *)"just a static text", SHOW_CHAR}, {"called", (char *)&number_of_calls, SHOW_LONG}, {0,0,0} }; /* 插件定義*/ mysql_declare_plugin(tft){ MYSQL_FTPARSER_PLUGIN, /* 類型 */ &tft_descriptor, /* 接口聲明 */ "tft", /* 插件名稱 */ "t Corp", /* 做者 */ "t Full-Text Parser", /* 描述 */ PLUGIN_LICENSE_GPL, tft_plugin_init, /* 加載函數 */ tft_plugin_deinit,/* 卸載函數 */ 0x0100, /* 版本 */ tft_status, /* 狀態變量 */ NULL, NULL, 0, } mysql_declare_plugin_end;
選擇一個高效的分詞庫測試
瞭解mysql插件的幾個內部數據結構優化
struct st_mysql_ftparser_param 結構是環境參數, 包含了須要解析數據的具體信息,須要瞭解內容,但通常不須要修改。ui
typedef struct st_mysql_ftparser_param{ int (*mysql_parse)(struct st_mysql_ftparser_param *, char *doc, int doc_len); int (*mysql_add_word)(struct st_mysql_ftparser_param *, char *word, int word_len, MYSQL_FTPARSER_BOOLEAN_INFO *boolean_info); void *ftparser_state; void *mysql_ftparam; struct charset_info_st *cs; char *doc; // 傳入的須要分詞的字符串 int length; // 字符串的長度 int flags; enum enum_ftparser_mode mode; } MYSQL_FTPARSER_PARAM;
# 安裝插件 mysql> INSTALL PLUGIN tft SONAME 'mypluglib.so'; # 卸載插件 mysql> UNINSTALL PLUGIN tft # 查看當前已經安裝的插件 mysql> show plugins; # 查看插件變量狀態 mysql> SHOW STATUS LIKE 'tft%'; +----------------------+--------------------+ | Variable_name | Value | +----------------------+--------------------+ | tft_static | just a static text | | tft_called | 0 | +----------------------+--------------------+
# 建立表 mysql> CREATE TABLE t (c VARCHAR(255), -> FULLTEXT (c) WITH PARSER tft -> ) ENGINE=MyISAM; Query OK, 0 rows affected (0.01 sec) # 插入數據 mysql> INSERT INTO t VALUES -> ('這是一個簡單測試'), -> ('上海 廣州 北京'), -> ('泰山 黃山 嵩山'); Query OK, 3 rows affected (0.02 sec)Records: 3 Duplicates: 0 Warnings: 0 # 查詢 mysql> SELECT MATCH(c) AGAINST('上海') FROM t;