zg手冊 之 Mysql 開發(1)-- 中文全文檢索插件開發

目前的中文檢索查詢方案

  1. 基於數據庫的模糊匹配(運行時字符串查找,查詢速度比較慢)html

  2. 專有的全文檢索引擎(sphinx, lucene等)mysql


我曾經遇到一個項目,數據量在百萬級別,不須要高級的全文檢索方式(沒有複雜的匹配需求,沒有複雜的過濾條件),只是須要根據關鍵詞檢索數據,當時採用的 mysql 全文檢索插件的方式來知足的項目需求。算法


Mysql 的中文全文檢索插件開發

  1. Mysql 的 MyISAM 引擎支持第三方的全文檢索插件,能夠用第三方插件替換默認的全文檢索插件。sql

  2. 在全文檢索插件中提供中文分詞算法,告訴MyISAM如何分詞,並建立索引。數據庫

  3. 查詢的時候經過插件分詞,查詢索引快速定位數據記錄。數據結構


插件開發的具體方法

主要經過代碼註釋描述插件的開發方法,建立文件 tft.c,代碼以下函數

#include <stdlib.h>
#include <ctype.h>

// mysql 插件必須包含的頭文件
#include <mysql/plugin.h>

// 這是我本身寫的一個分詞庫,沒有什麼優化,能夠替換爲其餘開源的實現。
#include <st_darts.h>
#include <st_utils.h>

#if !defined(__attribute__) && (defined(__cplusplus) \
|| !defined(__GNUC__)  || __GNUC__ == 2 && __GNUC_MINOR__ < 8)
#define __attribute__(A)
#endif

// 進行插件內部狀態統計的變量
static long number_of_calls= 0; /* 統計調用的次數 */

/*  tft 接口:  插件的初始化,卸載函數:
  - tft_plugin_init()
  - tft_plugin_deinit()
  解析接口:
  - tft_parse()
  - tft_init()
  - tft_deinit()
*/

// 我開發的分詞庫依賴的詞庫
static char* g_s_dictFile="/home/dev/work/ppr/tft/dict_chs.dic";
// 分詞庫的 handler
static st_darts* g_s_pDarts = NULL;

/*  插件被加載時的初始化函數
  返回值
    0     成功
    1     失敗
*/
static int tft_plugin_init(void *arg __attribute__((unused))){
  // 分詞器的初始化代碼
  g_s_pDarts = stDartsLoad(g_s_dictFile);
  stLog("load tft plugin succ.");
  return(0);
}

/*  插件被卸載時的資源釋放函數
  返回值
    0     成功
    1     失敗
*/
static int tft_plugin_deinit(void *arg __attribute__((unused))){
  // 卸載分詞器
  stDartsFree(g_s_pDarts);
  stLog("free tft plugin succ.");
  return(0);
}

/*  查詢開始時運行的代碼,目前不須要特殊處理 */
static int tft_init(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){
  return(0);
}

/*  查詢結束時運行的代碼,目前不須要特殊處理 */
static int tft_deinit(MYSQL_FTPARSER_PARAM *param __attribute__((unused))){
  return(0);
}

/*  返回一個提取的詞給 server
  參數:
      param              插件的解析環境
      word               詞
      len                詞長度
  描述:
    若是傳遞了 boolean 模式,則爲這個詞填充 boolean 元數據。
    建立索引的時候調用這個函數添加索引詞,查詢的時候調用這個函數添加查詢詞
*/
static void add_word(MYSQL_FTPARSER_PARAM *param, char *word, size_t len){
  // boolean 查詢模式
  MYSQL_FTPARSER_BOOLEAN_INFO bool_info=
  { FT_TOKEN_WORD, 0, 0, 0, 0, ' ', 0 };
  if (param->mode == MYSQL_FTPARSER_FULL_BOOLEAN_INFO){
    bool_info.yesno = 1;
  }
  // 傳遞詞給 mysql,用來建立索引,或者查詢。
  param->mysql_add_word(param, word, len, &bool_info);
}

/*  英文分詞簡單處理,用空格分隔      
    param              插件環境  
    描述:    解析英文的文檔或者查詢詞,傳遞給 mysql 的索引引擎,用來建立索引,或者進行查詢。
*/
static int tft_parse_en(MYSQL_FTPARSER_PARAM *param){
  char *end, *start, *docend= param->doc + param->length;

  number_of_calls++;

  for (end= start= param->doc;; end++)
  {
    if (end == docend)
    {
      if (end > start)
        add_word(param, start, end - start);
      break;
    }
    else if (isspace(*end))
    {
      if (end > start)
        add_word(param, start, end - start);
      start= end + 1;
    }
  }
  return 0;
}

/*  分詞函數,對文檔或者查詢詞進行分詞。若是是全英文文檔,則調用英文分詞。*/
#define c_uWordsCount 1024
static int tft_parse(MYSQL_FTPARSER_PARAM *param){
  if (NULL == param->doc || 0 == param->length){
    return 0;
  }

  // 統計調用次數
  number_of_calls++;

  st_timer stTimerType = ST_TIMER_MICRO_SEC;

  char* start = param->doc;
  char* docend = param->doc + param->length;

  // 初始化分詞 handler
  struct st_wordInfo wordInfo[c_uWordsCount] = { { 0, 0, 0 } };  
  st_darts_state dState;
  stDartsStateInit(g_s_pDarts, &dState, start, docend);
  
  uint32_t uWordsCount = 0;
  long long queryBeginTime = stTimer(stTimerType);
  // 循環獲取中文分詞
  while(uWordsCount < c_uWordsCount 
		  && stDartsNextWord(g_s_pDarts, &dState, &wordInfo[uWordsCount])){
	++uWordsCount;
  }
  long long queryEndTime = stTimer(stTimerType);
  stLog("result=%u, cost time=%lldus", uWordsCount, queryEndTime - queryBeginTime);

  // 檢測是不是英文
  if(uWordsCount == 0){
    tft_parse_en(param);
  }

  // 傳遞分詞給 mysql ,用來建立索引,或者執行查詢
  for (int i = 0; i < uWordsCount; ++i){
    add_word(param, wordInfo[i].pWord, wordInfo[i].wordLen);
  }

  return(0);
}

/*  插件的接口聲明*/
static struct st_mysql_ftparser tft_descriptor={
  MYSQL_FTPARSER_INTERFACE_VERSION, /* interface version      */
  tft_parse,              /* 解析函數 */
  tft_init,               /* 初始函數 */
  tft_deinit              /* 清理函數 */
};

/*  插件的狀態變量聲明*/
static struct st_mysql_show_var tft_status[]={
  {"static",     (char *)"just a static text",     SHOW_CHAR},
  {"called",     (char *)&number_of_calls, SHOW_LONG},
  {0,0,0}
};

/*  插件定義*/
mysql_declare_plugin(tft){
  MYSQL_FTPARSER_PLUGIN,      /* 類型 */
  &tft_descriptor,  /* 接口聲明 */
  "tft",            /* 插件名稱 */
  "t Corp",              /* 做者 */
  "t Full-Text Parser",  /* 描述 */
  PLUGIN_LICENSE_GPL,
  tft_plugin_init,  /* 加載函數     */
  tft_plugin_deinit,/* 卸載函數 */
  0x0100,                     /* 版本 */
  tft_status,              /* 狀態變量 */
  NULL,
  NULL,
  0,
}
mysql_declare_plugin_end;


開發要點

  1. 選擇一個高效的分詞庫測試

  2. 瞭解mysql插件的幾個內部數據結構優化

struct st_mysql_ftparser_param 結構是環境參數, 包含了須要解析數據的具體信息,須要瞭解內容,但通常不須要修改。ui

typedef struct st_mysql_ftparser_param{
  int (*mysql_parse)(struct st_mysql_ftparser_param *,
                     char *doc, int doc_len);
  int (*mysql_add_word)(struct st_mysql_ftparser_param *,
                        char *word, int word_len,
                        MYSQL_FTPARSER_BOOLEAN_INFO *boolean_info);
  void *ftparser_state;
  void *mysql_ftparam;
  struct charset_info_st *cs;
  char *doc; // 傳入的須要分詞的字符串
  int length; // 字符串的長度
  int flags;
  enum enum_ftparser_mode mode;
} MYSQL_FTPARSER_PARAM;


安裝全文檢索插件

# 安裝插件
mysql> INSTALL PLUGIN tft SONAME 'mypluglib.so';
# 卸載插件
mysql> UNINSTALL PLUGIN tft

# 查看當前已經安裝的插件
mysql> show plugins;

# 查看插件變量狀態
mysql> SHOW STATUS LIKE 'tft%';
+----------------------+--------------------+
| Variable_name        | Value              |
+----------------------+--------------------+
| tft_static           | just a static text |
| tft_called           | 0                  |
+----------------------+--------------------+


使用插件

# 建立表
mysql> CREATE TABLE t (c VARCHAR(255),
    ->   FULLTEXT (c) WITH PARSER tft
    -> ) ENGINE=MyISAM;
Query OK, 0 rows affected (0.01 sec)

# 插入數據
mysql> INSERT INTO t VALUES
    ->   ('這是一個簡單測試'),
    ->   ('上海 廣州 北京'),
    ->   ('泰山 黃山 嵩山');
Query OK, 3 rows affected (0.02 sec)Records: 3  Duplicates: 0  Warnings: 0

# 查詢
mysql> SELECT MATCH(c) AGAINST('上海') FROM t;


Mysql 全文檢索插件的開發文檔

原文連接:zg手冊 之 Mysql 開發(1)-- 中文全文檢索插件開發

相關文章
相關標籤/搜索