MySQL使用全文索引(fulltext index)

1.建立全文索引(FullText index)

       舊版的MySQL的全文索引只能用在MyISAM表格的char、varchar和text的字段上。 html

       不過新版的MySQL5.6.24上InnoDB引擎也加入了全文索引,因此具體信息要隨時關注官網,mysql

     1.1. 建立表的同時建立全文索引

             CREATE TABLE article (
                  id INT AUTO_INCREMENT NOT NULL PRIMARY KEY,
                  title VARCHAR(200),
                  body TEXT,
                  FULLTEXT(title, body)
              ) TYPE=MYISAM;
   sql

    1.2.經過 alter table 的方式來添加

                ALTER TABLE `student` ADD FULLTEXT INDEX ft_stu_name  (`name`) #ft_stu_name是索引名,能夠隨便起app

       或者:ALTER TABLE `student` ADD FULLTEXT ft_stu_name  (`name`)ui

 

    1.3. 直接經過create index的方式

                CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`)spa

           也能夠在建立索引的時候指定索引的長度:.net

                CREATE FULLTEXT INDEX ft_email_name ON `student` (`name`(20))unix

      

2. 刪除全文索引

    2.1. 直接使用 drop index(注意:沒有 drop fulltext index 這種用法)

                 DROP INDEX full_idx_name ON tommy.girl ;code

    2.2. 使用 alter table的方式 

                ALTER TABLE tommy.girl DROP INDEX ft_email_abcd;htm

 

3.使用全文索引

     跟普通索引稍有不一樣

     使用全文索引的格式:  MATCH (columnName) AGAINST ('string')

     eg:

           SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聰')

           當查詢多列數據時:

                建議在此多列數據上建立一個聯合的全文索引,不然使用不了索引的

          SELECT * FROM `student` WHERE MATCH(`name`,`address`) AGAINST('聰 廣東')

     3.1. 使用全文索引須要注意的是:(基本單位是)

            分詞,全文索引以詞爲基礎的,MySQL默認的分詞是全部非字母和數字的特殊符號都是分詞符(外國人嘛)

            這裏推薦一篇文章:利用mysql的全文索引實現模糊查詢 

       3.2. MySQL中與全文索引相關的幾個變量:

             使用命令:mysql> SHOW VARIABLES LIKE 'ft%'; #ft就是FullText的簡寫

             ft_boolean_syntax    + -><()~*:""&|         #改變IN BOOLEAN MODE的查詢字符,不用從新啓動MySQL也不用重建索引
             ft_min_word_len    4                                   #最短的索引字符串,默認值爲4,(一般改成1)修改後必須重建索引文件

                                                                               從新創建索引命令:repair table tablename quick 

             ft_max_word_len    84                                #最長的索引字符串,默認值爲84,修改後必須重建索引文件

             ft_query_expansion_limit   20                      #查詢括展時取最相關的幾個值用做二次查詢

             ft_stopword_file    (built-in)                      #全文索引的過濾詞文件,具體能夠參考:MySQL全文檢索中不進行全文索引默認過濾詞         


             特別注意:50%的門坎限制(當查詢結果不少,幾乎全部記錄都有,或者極少的數據,都有可能會返回非所指望的結果)

                       -->可用IN BOOLEAN MODE便可以避開50%的限制。

                      此時使用全文索引的格式就變成了: SELECT * FROM `student` WHERE MATCH(`name`) AGAINST('聰' IN BOOLEAN MODE)

                        更多內容請參考:MySQL中的全文檢索(1)

 

4. ft_boolean_syntax (+ -><()~*:""&|)使用的例子:

        4.1  + : 用在詞的前面,表示必定要包含該詞,而且必須在開始位置。

                            eg: +Apple 匹配:Apple123,     "tommy, Apple"

        4.2  - : 不包含該詞,因此不能只用「-yoursql」這樣是查不到任何row的,必須搭配其餘語法使用。

                            eg: MATCH (girl_name) AGAINST ('-林志玲 +張筱雨')

                              匹配到: 全部不包含林志玲,但包含張筱雨的記錄 

        4.3. 空(也就是默認狀況),表示可選的,包含該詞的順序較高。 

                       例子:

                 apple banana           找至少包含上面詞中的一個的記錄行

                 +apple +juice               兩個詞均在被包含

                 +apple macintosh     包含詞 「apple」,可是若是同時包含 「macintosh」,它的排列將更高一些

                 +apple -macintosh   包含 「apple」 但不包含 「macintosh」

        4.4. > :提升該字的相關性,查詢的結果會排在比較靠前的位置。 

        4.5.< :下降相關性,查詢的結果會排在比較靠後的位置。

                      例子:4.5.1.先不使用 >< 

                                select * from tommy.girl where match(girl_name) against('張欣婷' in boolean mode);

                                   能夠看到徹底匹配的排的比較靠前

                              4.5.2. 單獨使用 >

                                select * from tommy.girl where match(girl_name) against('張欣婷 >李秀琴' in boolean mode);

                                  使用了>的李秀琴立刻就排到最前面

 

                             4.5.3. 單獨使用 <

                                select * from tommy.girl where match(girl_name) against('張欣婷 <不是人' in boolean mode);

                                 看到沒,不是人排到最前面了,這裏使用的但是 < 哦,說好的下降相關性呢,往下看吧。

 

                           4.5.4.同時使用><

                              select * from tommy.girl where match(girl_name) against('張欣婷 >李秀琴 <練習冊 <不是人 >是個鬼' in boolean mode);

                               到這裏終於有答案了,只要使用了 ><的都會往前排,並且>的老是排在<的前面

                        小結一下:1. 只要使用 ><的總比沒用的 靠前;

                                       2. 使用  >的必定比 <的排的靠前 (這就符合相關性提升和下降)

                                       3. 使用同一類的,使用的越早,排的越前。

        4.6. ( ):能夠經過括號來使用字條件。  

                       eg: +aaa +(>bbb <ccc) // 找到有aaa和bbb和ccc,aaa和bbb,或者aaa和ccc(由於bbb,ccc前面沒有+,因此表示無關緊要),

                                         而後 aaa&bbb > aaa&bbb&ccc > aaa&ccc

           4.7. ~ :將其相關性由正轉負,表示擁有該字會下降相關性,但不像「-」將之排除,只是排在較後面。 

                           eg:   +apple ~macintosh   先匹配apple,但若是同時包含macintosh,就排名會靠後。

           4.8. * :通配符,這個只能接在字符串後面。 

                                 MATCH (girl_name) AGAINST ('+*ABC*')   #錯誤,不能放前面

                                 MATCH (girl_name) AGAINST ('+張筱雨*')  #正確

           4.9. " " :總體匹配,用雙引號將一段句子包起來表示要徹底相符,不可拆字。 

                                 eg:  "tommy huang" 能夠匹配  tommy huang xxxxx   可是不能匹配  tommy is huang

5.補充:Windows下沒法修改 ft_min_word_len的狀況,

          5. 1. 使用cmd打開 services.msc,

                找到你的 MySQL服務,右鍵Properties,找到你的my.ini所在的路徑

                

          5.2. 中止MySQL,在my.ini中增長 ft_min_word_len = 1,重啓MySQL,

                    而後使用命令 show variables like 'ft_min_word_len'; 查看是否生效了

相關文章
相關標籤/搜索