國人開發的CoreSeek實際是上基於Sphinx的定製版,使用mmseg進行中文分詞並實現中文搜索。 php
官網提供了詳細的安裝說明和CentOS5的rpm安裝包,因爲筆者須要在CentOS 6 x86_64上運行,得自行打包。筆者已完成源碼包的封裝:mmseg 、 coreseek。 html
相對Sphinx的安裝,CoreSeek須要安裝中文分詞庫mmseg。測試方法就是在示例數據庫裏插入一些中文字符串: python
而後重建索引就能夠自動分詞,並查詢中文了: mysql
特別須要注意的就是,要統一字符編碼。筆者統一使用UTF-8,示例MySQL數據庫對應表的屬性是: sql
CREATE TABLE `documents` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`group_id` int(11) NOT NULL,
`group_id2` int(11) NOT NULL,
`date_added` datetime NOT NULL,
`title` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
`content` text COLLATE utf8_unicode_ci NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci 數據庫
另外就是CoreSeek的配置文件中須要指定字符集,詳細配置請解開源碼包查看詳細。筆者編譯過程開啓了對unixodbc、mmseg、mysql和python的支持: api
並打包了php的api庫、日誌分割以及系統服務: 測試
須要中文分詞搜索的,用CoreSeek真是扛扛的!惟一美中不足的就是內置的Sphinx版本還比較老舊,對新功能的支持可能沒那麼好。須要你們大力支持,促進國人軟件的發展! 編碼