基於mysql全文索引的深刻理解

前言:本文簡單講述全文索引的應用實例,MYSQL演示版本5.5.24。
Q:全文索引適用於什麼場合?
A:全文索引是目前實現大數據搜索的關鍵技術。
至於更詳細的介紹請自行百度,本文再也不闡述。
--------------------------------------------------------------------------------
1、如何設置?
php



如圖點擊結尾處的{全文搜索}便可設置全文索引,不一樣MYSQL版本名字可能不一樣。

2、設置條件
1.表的存儲引擎是MyISAM,默認存儲引擎InnoDB不支持全文索引(新版本MYSQL5.6的InnoDB支持全文索引)
2.字段類型:char、varchar和text

3、配置
my.ini配置文件中添加
# MySQL全文索引查詢關鍵詞最小長度限制
[mysqld]
ft_min_word_len = 1
保存後重啓MYSQL,執行SQL語句
mysql

複製代碼代碼以下:web


SHOW VARIABLES
sql


查看ft_min_word_len是否設置成功,若是沒設置成功請確保
1.確認my.ini正確配置,注意不要搞錯my.ini的位置
2.確認mysql已經重啓,實在不行重啓電腦
其餘相關配置請自行百度。
注:從新設置配置後,已經設置的索引須要從新設置生成索引
 
4、SQL語法
首先生成temp表
服務器

複製代碼代碼以下:測試


CREATE TABLE IF NOT EXISTS `temp` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `char` char(50) NOT NULL,
  `varchar` varchar(50) NOT NULL,
  `text` text NOT NULL,
  PRIMARY KEY (`id`),
  FULLTEXT KEY `char` (`char`),
  FULLTEXT KEY `varchar` (`varchar`),
  FULLTEXT KEY `text` (`text`)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=2 ;
INSERT INTO `temp` (`id`, `char`, `varchar`, `text`) VALUES
(1, 'a bc 我 知道 1 23', 'a bc 我 知道 1 23', 'a bc 我 知道 1 23');
大數據


搜索`char`字段 'a' 值
spa

複製代碼代碼以下:插件


SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a')
orm


可是你會發現查詢無結果?!
這時你也許會想:哎呀怎麼回事,我明明按照步驟來作的啊,是否是那裏漏了或者錯了?
你不要着急,作程序是這樣的,出錯老是有的,靜下心來,着急是不能解決問題的。

若是一個關鍵詞在50%的數據出現,那麼這個詞會被當作無效詞。
若是你想去除50%的如今請使用IN BOOLEAN MODE搜索

複製代碼代碼以下:


SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a' IN BOOLEAN MODE)


這樣就能夠查詢出結果了,可是咱們不推薦使用。
全文索引的搜索模式的介紹自行百度。

咱們先加入幾條無用數據已解除50%限制

複製代碼代碼以下:


INSERT INTO  `temp` (
`id` ,
`char` ,
`varchar` ,
`text`
)
VALUES (
NULL ,  '7',  '7',  '7'
), (
NULL ,  '7',  '7',  '7'
), (
NULL ,  'a,bc,我,知道,1,23',  'a,bc,我,知道,1,23',  'a,bc,我,知道,1,23'
), (
NULL ,  'x',  'x',  'x'
);


這時你執行如下SQL語句均可以查詢到數據

複製代碼代碼以下:


SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('bc');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('我');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知道');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('1');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('23');


如下SQL搜索不到數據

複製代碼代碼以下:


SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('b');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('c');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('知');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('道');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('2');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('3');


若是搜索多個詞,請用空格或者逗號隔開

複製代碼代碼以下:


SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a x');
SELECT * FROM `temp` WHERE MATCH(`char`) AGAINST ('a,x');


上面的SQL均可以查詢到三條數據

5、分詞
看到這裏你應該發現咱們字段裏的值也是分詞,不能直接插入原始數據。
全文索引應用流程:
1.接收數據-數據分詞-入庫
2.接收數據-數據分詞-查詢
如今有個重要的問題:怎麼對數據分詞?
數據分詞通常咱們會使用一些成熟免費的分詞系統,固然若是你有能力也能夠本身作分詞系統,這裏咱們推薦使用SCWS分詞插件。
首先下載
1.php_scws.dll  注意對應版本
2.XDB詞典文件
3.規則集文件
下載地址
 
安裝scws
1.先建一個文件夾,位置不限,可是最好不要中文路徑。
2.解壓{規則集文件},把xdb、三個INI文件所有扔到 D:\scws
3.把php_scws.dll複製到你的PHP目錄下的EXT文件夾裏面
4.在 php.ini 的末尾加入如下幾行:
[scws]

; 注意請檢查 php.ini 中的 extension_dir 的設定值是否正確, 不然請將 extension_dir 設爲空,
; 再把 php_scws.dll 指定爲絕對路徑。

extension = php_scws.dll
scws.default.charset = utf8
scws.default.fpath = "D:\scws"
5.重啓你的服務器
測試

複製代碼代碼以下:


$str="測試中文分詞";
$so = scws_new();
$so->send_text($str);
$temp=$so->get_result();
$so->close();
var_dump($temp);


若是安裝未成功,請參照官方說明文檔
--------------------------------------------------------------------------------
這樣咱們就可使用全文索引技術了。

相關文章
相關標籤/搜索