開源中文檢索軟件CoreSeek之初體驗

時間 2019-11-17

原文原文鏈接

國人開發的CoreSeek實際是上基於Sphinx的定製版，使用mmseg進行中文分詞並實現中文搜索。 php

官網提供了詳細的安裝說明和CentOS5的rpm安裝包，因爲筆者須要在CentOS 6 x86_64上運行，得自行打包。筆者已完成源碼包的封裝：mmseg 、 coreseek。 html

相對Sphinx的安裝，CoreSeek須要安裝中文分詞庫mmseg。測試方法就是在示例數據庫裏插入一些中文字符串： python

而後重建索引就能夠自動分詞，並查詢中文了： mysql

特別須要注意的就是，要統一字符編碼。筆者統一使用UTF-8，示例MySQL數據庫對應表的屬性是： sql

CREATE TABLE `documents` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`group_id` int(11) NOT NULL,
`group_id2` int(11) NOT NULL,
`date_added` datetime NOT NULL,
`title` varchar(255) COLLATE utf8_unicode_ci NOT NULL,
`content` text COLLATE utf8_unicode_ci NOT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=14 DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci 數據庫

另外就是CoreSeek的配置文件中須要指定字符集，詳細配置請解開源碼包查看詳細。筆者編譯過程開啓了對unixodbc、mmseg、mysql和python的支持： api

並打包了php的api庫、日誌分割以及系統服務：測試

須要中文分詞搜索的，用CoreSeek真是扛扛的！惟一美中不足的就是內置的Sphinx版本還比較老舊，對新功能的支持可能沒那麼好。須要你們大力支持，促進國人軟件的發展！編碼