開源中文檢索軟件CoreSeek之初體驗

   國人開發的CoreSeek實際是上基於Sphinx的定製版,使用mmseg進行中文分詞並實現中文搜索。 php

    官網提供了詳細的安裝說明和CentOS5的rpm安裝包,因爲筆者須要在CentOS 6 x86_64上運行,得自行打包。筆者已完成源碼包的封裝:mmsegcoreseekhtml

image

    相對Sphinx的安裝,CoreSeek須要安裝中文分詞庫mmseg。測試方法就是在示例數據庫裏插入一些中文字符串: python

image

    而後重建索引就能夠自動分詞,並查詢中文了: mysql

higkoo

    特別須要注意的就是,要統一字符編碼。筆者統一使用UTF-8,示例MySQL數據庫對應表的屬性是: sql

CREATE TABLE `documents` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `group_id` int(11) NOT NULL,
  `group_id2` int(11) NOT NULL,
  `date_added` datetime NOT NULL,
  `title` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
  `content` text COLLATE utf8_unicode_ci NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci 數據庫

 

    另外就是CoreSeek的配置文件中須要指定字符集,詳細配置請解開源碼包查看詳細。筆者編譯過程開啓了對unixodbc、mmseg、mysql和python的支持: api

image

    並打包了php的api庫、日誌分割以及系統服務: 測試

image

   須要中文分詞搜索的,用CoreSeek真是扛扛的!惟一美中不足的就是內置的Sphinx版本還比較老舊,對新功能的支持可能沒那麼好。須要你們大力支持,促進國人軟件的發展! 編碼

相關文章
相關標籤/搜索