產品級搜索技術-全文本索引

時間 2019-11-09

原文原文鏈接

介紹

大部分技術員在處理搜索問題的時候，每每直接依賴數據庫的查詢功能，經過普通 SQL 語句的數值比較, 範圍的過濾等就能夠完成絕大多數咱們須要的查詢了, 可是若是你但願經過關鍵字的匹配來進行查詢過濾, 那麼就須要基於類似度的查詢, 而不是原來的精確數值比較, 那麼這種查詢咱們第一個想到的確定是 LIKE 的 SQL 語句, 可是LIKE模糊查詢它的工做原理是全表掃描, 若是數據量很是大, 那麼會形成很是嚴重的卡頓, 也可能出現整個項目崩掉, 而全文索引的設計就是避免這種狀況的發生mysql

全文搜索分類 1. 天然語言搜索(默認類型)：MySQL 會把搜索的字符串解析成一系列的單詞，而後去搜索包含的行；
2. 布爾模式搜索：能夠爲搜索的字符串里加修飾詞，或者必須是什麼短語，安順序搜索等
3. 查詢擴展搜索：這種搜索分爲兩個階段。第一階段，是天然語言搜素。第二階段，則先把原來的搜索字符串，與第一階段的搜索裏高度匹配的那些行，鏈接到一塊兒。laravel

全文搜索的特性 1. 全文搜索基於 FullText 索引。在 FullText 索引, 裏只能出如今 CHAR VARCHAR TEXT 這幾種類型裏
2. 全文搜索會 忽略那些常見詞：常見詞，指的是至少一半的行裏都出現過，超過 50% 的詞，都爲常見詞；
3. 有些爲內建的經常使用單詞：也叫停用詞，好比：the after other
4. 比較短的單詞也會被停用sql

所謂的中文全文索引，就是用一本字典，把一段中文字，拆分爲一個個的詞語，這樣來符合 FullText 的單詞定義。而後徹底能夠把中文看做成英文，進行全文本索引！數據庫

建表語句

建立表,不必定要主鍵索引

create table apothegm(  
     attribution varchar(40),
     phrase  text
) engine = myisan;

增長全文索引

alert table apothegm  
    add fulltext (phrase),
    add fulltext (attribution),
    add fulltext (phrase,attribution);
我的理解：
    1. 索引分爲，單列索引和複合索引。
    2. 每次在進行搜索的時候，必需要有一個 FullText 索引，而它正好是由查詢命令裏列出的那些字段組成。
    3. 索引越多，寫入數據越慢，可是索引的方式也就越多，越加便捷。

天然語言索引

基本 SQL 語句

//應用其第一個 FullText 索引
select * from apothegm where match(phrase) againts('time');  
//應用其第三個 FullText 索引
select * from apothegm where match(phrase,attribution) againts('time');

輸出相關程度 : 天然語言類型的全文搜索。其輸出是按照相關程度遞減順序排列，相關度是一個非負數的浮點數，其中 0表明絕不相關

select phrase,match(phrase) against('time') as relavance from apothegm

PS:把匹配的結構，看成一個獨立字段，其中 relavance 爲相關程度的意思

多個詞一塊兒查詢，好比查詢 hard 或者 soft

select * from apothegm where match(phrase) againts('hard soft');

布爾模式的全文索引

特色 1. 50％同樣的規則：不生效了
2. 查詢結果再也不按照 相關程度排序
3. 也能夠對非 FullText 索引列進行搜索，只是速度相比，有 FullText 的速度要慢ui

使用的方式搜索引擎

基本方式：要在 MATCH 後面加IN BOOLEAN MODE，（不加說明，默認使用天然排序IN NATURAL LANGUAGE MODE）

select * from apothegm where match(phrase) againts('hard' in boolean mode);

按單詞出現順序檢索，把對應單詞用雙引號引發來；

select * from apothegm where match(phrase) againts('「bell book and candle」' in boolean mode);

能夠搜索必須出現，必須不出現，分別用 + 和－標示：

select * from apothegm where match(phrase) againts('＋bell  －candle' in boolean mode);

能夠用＊做爲通配符, 標示以什麼開頭的。可是仍是必須遵照，單詞不能太短的約定。

配置全文搜索引擎

全文索引的參數是能夠配置的，能夠經過系統變量的辦法進行修改。spa

變量 ft_min_word_len 和 ft_max_word_len 來設置單詞所具備的最小長度，和最大長度。默認最小值與最大值分別爲 4 和 84
在 my.conf 的 mysqld 下添加下面語句，而後重啓。

ft_min_word_len = 1

若是是已經創建 FullText 索引表，必須從新創建這些索引關係，但也是能夠快速修復。

repair table tbl_name quick;

若是是在此以後新建的 FullText 索引，均可以更新使用這個值。

參考設計

原文出處code

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。