php 安裝、使用sphinx

時間 2019-11-21

標籤 php 安裝使用 sphinx 欄目 PHP 简体版

原文原文鏈接

轉載自http://blog.csdn.net/myboyli/article/details/52653534，若有侵權，請聯繫刪除。

Sphinx部分

簡介

Sphinx是一個基於SQL的全文檢索引擎，能夠結合MySQL,PostgreSQL作全文搜索，它能夠提供比數據庫自己更專業的搜索功能，使得應用程序更容易實現專業化的全文檢索。Sphinx特別爲一些腳本語言設計搜索API接口，如PHP,Python,Perl,Ruby等，同時爲MySQL也設計了一個存儲引擎插件。

前提安裝完MySQL，並建立測試表和數據 php

DROP TABLE IF EXISTS `documents`;

CREATE TABLE IF NOT EXISTS `documents` (
  `id` int(11) NOT NULL AUTO_INCREMENT,
  `title` varchar(255) NOT NULL,
  `content` text NOT NULL,
  `date_added` datetime NOT NULL,
  `author_id` int(11) NOT NULL,
  `group_id` int(2) NOT NULL,
  PRIMARY KEY (`id`)
) ENGINE=MyISAM  DEFAULT CHARSET=utf8 AUTO_INCREMENT=4 ;
##轉存表中的數據 `documents`

INSERT INTO `documents` (`id`, `title`, `content`, `date_added`, `author_id`, `group_id`) VALUES (1, '愚人節最佳蠱惑爆料谷歌300億美圓收購百度', '據國外媒體報道，谷歌將巨資收購百度，涉及金額高達300億美圓。谷歌藉此重返大陸市場。　　該報道稱，目前谷歌與百度已經達成了收購協議，將擇機對外公佈。百度的管理層將100%保留，但會將項目縮減，包括有啊商城，以及目前實施不力的鳳巢計劃。正在進行測試階段的視頻網站qiyi.com將輸入更多的Youtube資源。(YouTube在大陸區因內容審查暫不能訪問)。　　該消息彷佛獲得了谷歌CEO施密特的確認，在其twitter上用簡短而曖昧的文字進行了表述：「 Withdraw from that market? u''ll also see another result, just wait... 」意思是：從那個市場退出?你還會看到另一個結果。毫無疑問，那個市場指的就是中國大陸。而另外的結果，對應此媒體報道，就是收購百度，從而曲線返回大陸搜索市場。　　在最近剛剛結束的深圳IT領袖峯會上，李彥宏曾言，「谷歌沒有退出中國，由於還在香港」。也彷佛在驗證被收購的這一事實。　　截止發稿，百度的股價爲597美圓，市值爲207億美圓。谷歌以高達300億美圓的價格，實際溢價高達50%。而谷歌市值高達1796億美圓，並且手握大量現金，做這樣的決策也在情理之中。近日，不少媒體都在報道百度創始人、CEO李彥宏的兩次拒購：一次是百度上市前夕，李彥宏拒絕谷歌的併購，這個細節在2月28日央視虎年首期對話節目中獲得首次披露﹔一次是在百度國際化戰略中，拒絕採用海外併購的方式，而是採起了從日本市場開始的海外自主發展之路。這也讓筆者由此開始思考民族品牌的發展之路。　　收購是打壓中國品牌的慣用伎倆　　2010年2月28日，央視經濟頻道《對話》節目昨晚推出虎年首期節目，百度董事長兼CEO李彥宏做爲嘉賓作客節目。李彥宏首度談及2005年百度上市前夕，谷歌CEO施密特曾祕密造訪百度時祕密談話的內容，主要是勸阻百度上市，李彥宏斷然拒絕了施密特的「好意」。今天看來，施密特當日也許已有不祥的預感，這個幾百人的小公司終有一日會成爲他們的大麻煩。　　本期《對話》一經播出，便引起了業界討論。　　外資品牌經過收購打壓中國品牌的案例不勝枚舉。從以往跨國企業併購的中國品牌來看，真正讓其活下來的品牌並很少，要麼被雪藏，要麼被低端化。　　所以，2005年百度沒有接受Google的收購邀請，堅持自主發展，這對於保護中國品牌，維護中國網民信息安全有着相當重要的做用。當前百度市場份額高達76%，並持續增加，這也充分驗證了李彥宏拒絕收購決策的正確性。　　今天看來，「百度一下」已經成爲3億多中國網民的網絡生存法則，而直到今天環視全球，真正能像中國同樣，擁有本身獨立搜索引擎的只有4個國家！咱們也許應該慶幸當時李彥宏的選擇。這個故事也告訴咱們，中國企業作品牌還要靠本身！　　收購也多是中國企業走出去的陷阱　　一樣在2月28日，亞布力第十屆年會上，李彥宏在論壇上指出：「咱們和不少其它公司的國際化路子是很不同的，咱們不是去買一個國外的公司，」，李彥宏解釋了百度率先選擇日本做爲走出去的對象的緣由，由於日本和中國一衣帶水的近鄰優點，日本的市場規模，在日本也沒有一家獨大的搜索引擎。　　中國企業收購這些外資品牌目的是「借船出海」。外資品牌進入中國是收購中國優質品牌，而中國企業進入國外市場的收購策略偏偏相反，這也是中國企業借船出海屢屢失敗的緣由所在。　　筆者認爲，中國互聯網公司走出去要依靠自身發展，並不能單純依靠收購。李彥宏在百度成立伊始就抱定了國際化決心，使百度真正在面對國際化機遇時，更加冷靜和具備前瞻力。李彥宏也認可當前百度在日本還處於初級發展階段，但他也預言「2012年，百度與Google劃洋而治」，對此咱們拭目以待！', '2010-04-01 22:20:07', 1, 2), ( (2, 'Twitter主頁改版推普通用戶消息增長趨勢話題', '4月1日消息，據國外媒體報道，Twitter本週二推出新版主頁，目的很簡單：幫助新用戶瞭解Twitter和增長用戶黏稠度。　　新版Twittter入口處的內容眼花繚亂，在頭部下方有滾動的熱門趨勢話題，左邊列出了普通用戶帳戶和他們最新的消息。　　另外一個顯著的部分是「Top Tweets」，它採用了新算法推選出最熱門的話題，每一個幾秒刷新一次。Twitter首席科學家Abdur Chowdhury表示，這種算法選出了全部用戶的信息，而不是擁有大量追隨者所發的信息。　　首頁對於首次訪問網站的用戶很是重要，由於這決定了用戶的第一印象。研究發現，多達60%的Twittter用戶在註冊後的一個月內再也不訪問網站。Twittter但願能更好地展示網站的面貌，幫助遊客找到感興趣的東西。', '2010-04-01 23:25:48', 1, 3), ( (3, '死都要上！Opera Mini 體驗版搶先試用', 'Opera一直都被認爲是瀏覽速度飛快，同時在移動平臺上更是佔有很多的份額。不久前，Opera正式向蘋果提交了針對iPhone設計的Opera Mini。日前，臺灣IT網站放出了Opera Mini和Safari的評測文章，下面讓咱們看看Opera和Safari到底誰更好用更快吧。　　Opera Mini VS Safari，顯示方式很不相同和Safari不一樣的是，Opera Mini會針對手機對網頁進行一些調整　　Opera Mini與Safari的運做原理不大相同。網頁會經過Opera的服務器完整壓縮後再發送到手機上，不像Safari可經過Multi-Touch和點擊的方式自由縮放，Opera Mini會預先將文字照iPhone的寬度作好調整，點擊區域後自動放大。若是習慣了Safari的瀏覽方式，會感受不大順手，不過對許多寬度太寬，縮放後文字仍然顯示很小的網頁來講，Opera Mini的顯示方式比較有優點。　　打開測試網站首頁所花費的流量，Safari和Opera Mini的差距明顯可見。這個在國內移動資費超高的局面來講，Opera Mini估計會比較受歡迎和省錢。Opera Mini的流量少得驚人，僅是Safari的十分之一　　兼容性相比，Safari完勝打開Google首頁，Safari上是iPhone專用界面，Opera則是通常移動版本　　Opera Mini的速度和省流量仍是沒法取代Safari成爲iPhone上的主要瀏覽器。畢竟iPhone的高佔有率讓許多網站，線上服務都爲Safari設計了專用頁面。光Google的首頁爲例子就看出了明顯的差異。另外，像Google Buzz這樣線上應用，就會出現顯示錯誤。Google Buzz上，Opera沒法輸入內容　　Opera Mini其餘專屬功能頁面內搜索和關鍵字直接搜索至關人性化　　除了Opera首創的Speed Dial九宮格快速啓動頁面外，和Opera Link和電腦上的Opera直接同步書籤、Speed Dial設定外。Opera Mini還可以直接搜索頁面中的文字，查找資料時至關方便。另外也能選取文字另開新分頁搜索，比起Safari還要複製、開新頁、粘貼簡單許多。同時還能將整個頁面打包存儲，方便離線瀏覽。　　如今Opera Mini想要戰勝Safari還剩下一個很嚴重的問題-蘋果什麼時候會或者會不會經過Opera Mini的審覈。', '2010-04-01 12:01:00', 2, 3);html

一、下載Sphinxpython

cd /usr/software

wget http://sphinxsearch.com/files/sphinx-2.1.5-release.tar.gz
或者直接去Sphinx官網去下載最新版本

二、安裝依賴包mysql

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

三、安裝Sphinx linux

tar zxvf sphinx-2.1.5-release.tar.gz

cd sphinx-2.1.5-release

./configure --prefix=/usr/local/sphinx

make

make install

vi /etc/ld.so.conf 

/usr/local/mysql/lib #增長這一行保存 

/sbin/ldconfig -v

四、配置Sphinxios

請先看完我在後文寫的配置文件解析，再參閱我再coreseek配置文件部分寫的配置方法就好了。nginx

五、啓動Sphinx、建立索引c++

#啓動
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf
#建立索引
/usr/local/sphinx/bin/indexer -c /usr/local/sphinx/etc/csft.conf --rotate --all
#中止
/usr/local/sphinx/bin/searchd -c /usr/local/sphinx/etc/csft.conf --stop

sphinx的配置文件解析

咱們先要明白幾個概念：web

source：數據源，數據是從什麼地方來的。
index：索引，當有數據源以後，從數據源處構建索引。索引實際上就是至關於一個字典檢索。有了整本字典內容之後，纔會有字典檢索。
searchd：提供搜索查詢服務。它通常是以deamon的形式運行在後臺的。
indexer：構建索引的服務。當要從新構建索引的時候，就是調用indexer這個命令。
attr：屬性，屬性是存在索引中的，它不進行全文索引，可是能夠用於過濾和排序。

sphinx的配置文件過於冗長，咱們把sphinx默認的配置文件中的註釋部分去掉，從新進行描述理解，就成下面的樣子了：算法

配置文件

## 數據源src1 source src1 { ## 說明數據源的類型。數據源的類型能夠是：mysql，pgsql，mssql，xmlpipe，odbc，python ## 有人會奇怪，python是一種語言怎麼能夠成爲數據源呢？ ## python做爲一種語言，能夠操做任意其餘的數據來源來獲取數據，更多數據請看：（http://www.coreseek.cn/products-install/python/） type = mysql ## 下面是sql數據庫特有的端口，用戶名，密碼，數據庫名等。 sql_host = localhost sql_user = test sql_pass = sql_db = test sql_port = 3306 ## 若是是使用unix sock鏈接可使用這個。 # sql_sock = /tmp/mysql.sock ## indexer和mysql之間的交互，須要考慮到效率和安全性。 ## 好比考慮到效率，他們二者之間的交互須要使用壓縮協議；考慮到安全，他們二者之間的傳輸須要使用ssl ## 那麼這個參數就表明這個意思，0/32/2048/32768 無/使用壓縮協議/握手後切換到ssl/Mysql 4.1版自己份認證。 # mysql_connect_flags = 32 ## 當mysql_connect_flags設置爲2048（ssl）的時候，下面幾個就表明ssl鏈接所須要使用的幾個參數。 # mysql_ssl_cert = /etc/ssl/client-cert.pem # mysql_ssl_key = /etc/ssl/client-key.pem # mysql_ssl_ca = /etc/ssl/cacert.pem ## mssql特有，是否使用windows登錄 # mssql_winauth = 1 ## mssql特有，是使用unicode仍是單字節數據。 # mssql_unicode = 1 # request Unicode data from server ## odbc的dsn串 # odbc_dsn = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)}; ## sql某一列的緩衝大小，通常是針對字符串來講的。 ## 爲何要有這麼一種緩衝呢？ ## 有的字符串，雖然長度很長，可是實際上並無使用那麼長的字符，因此在Sphinx並不會收錄全部的字符，而是給每一個屬性一個緩存做爲長度限制。 ## 默認狀況下非字符類型的屬性是1KB，字符類型的屬性是1MB。 ## 而若是想要配置這個buffer的話，就能夠在這裏進行配置了。 # sql_column_buffers = content=12M, comments=1M ## indexer的sql執行前須要執行的操做。 # sql_query_pre = SET NAMES utf8 # sql_query_pre = SET SESSION query_cache_type=OFF ## indexer的sql執行語句 sql_query = \ SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ FROM documents ## 有的時候有多個表，咱們想要查詢的字段在其餘表中。這個時候就須要對sql_query進行join操做。 ## 而這個join操做可能很是慢，致使創建索引的時候特別慢，那麼這個時候，就能夠考慮在sphinx端進行join操做了。 ## sql_joined_field是增長一個字段，這個字段是從其餘表查詢中查詢出來的。 ## 這裏封號後面的查詢語句是有要求的，若是是query，則返回id和查詢字段，若是是payload-query，則返回id，查詢字段和權重。 ## 而且這裏的後一個查詢須要按照id進行升序排列。 # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC ## 外部文件字段，意思就是一個表中，有一個字段存的是外部文件地址，可是實際的字段內容在文件中。好比這個字段叫作content_file_path。 ## 當indexer創建索引的時候，查到這個字段，就讀取這個文件地址，而後加載，並進行分詞和索引創建等操做。 # sql_file_field = content_file_path ## 當數據源數據太大的時候，一個sql語句查詢下來每每頗有可能鎖表等操做。 ## 那麼我麼就可使用屢次查詢，那麼這個屢次查詢就須要有個範圍和步長，sql_query_range和sql_range_step就是作這個使用的。 ## 獲取最大和最小的id，而後根據步長來獲取數據。好比下面的例子，若是有4500條數據，這個表創建索引的時候就會進行5次sql查詢。 ## 而5次sql查詢每次的間隔時間是使用sql_ranged_rhrottle來進行設置的。單位是毫秒。 # sql_query_range = SELECT MIN(id),MAX(id) FROM documents # sql_range_step = 1000 # sql_ranged_throttle = 0 ## 下面都是些不一樣屬性的數據了 ## 先要了解屬性的概念：屬性是存在索引中的，它不進行全文索引，可是能夠用於過濾和排序。 ## uint無符號整型屬性 sql_attr_uint = group_id ## bool屬性 # sql_attr_bool = is_deleted ## 長整型屬性 # sql_attr_bigint = my_bigint_id ## 時間戳屬性，常常被用於作排序 sql_attr_timestamp = date_added ## 字符串排序屬性。通常咱們按照字符串排序的話，咱們會將這個字符串存下來進入到索引中，而後在查詢的時候比較索引中得字符大小進行排序。 ## 可是這個時候索引就會很大，因而咱們就想到了一個方法，咱們在創建索引的時候，先將字符串值從數據庫中取出，暫存，排序。 ## 而後給排序後的數組分配一個序號，而後在創建索引的時候，就將這個序號存入到索引中去。這樣在查詢的時候也就能完成字符串排序的操做。 ## 這，就是這個字段的意義。 # sql_attr_str2ordinal = author_name ## 浮點數屬性，常常在查詢地理經緯度的時候會用到。 # sql_attr_float = lat_radians # sql_attr_float = long_radians ## 多值屬性（MVA） ## 試想一下，有一個文章系統，每篇文章都有多個標籤，這個文章就叫作多值屬性。 ## 我要對某個標籤進行查詢過濾，那麼在創建查詢的時候就應該把這個標籤的值放入到索引中。 ## 這個字段，sql_attr_multi就是用來作這個事情的。 # sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags # sql_attr_multi = uint tag from ranged-query; \ # SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \ # SELECT MIN(docid), MAX(docid) FROM tags ## 字符串屬性。 # sql_attr_string = stitle ## 文檔詞彙數記錄屬性。好比下面就是在索引創建的時候增長一個詞彙數的字段 # sql_attr_str2wordcount = stitle ## 字符串字段，可全文搜索，可返回原始文本信息。 # sql_field_string = author ## 文檔詞彙數記錄字段，可全文搜索，可返回原始信息 # sql_field_str2wordcount = title ## 取後查詢，在sql_query執行後當即操做。 ## 它和sql_query_post_index的區別就是執行時間不一樣 ## sql_query_post是在sql_query執行後執行，而sql_query_post_index是在索引創建完成後才執行。 ## 因此若是要記錄最後索引執行時間，那麼應該在sql_query_post_index中執行。 # sql_query_post = ## 參考sql_query_post的說明。 # sql_query_post_index = REPLACE INTO counters ( id, val ) \ # VALUES ( 'max_indexed_id', $maxid ) ## 命令行獲取信息查詢。 ## 什麼意思呢？ ## 咱們進行索引通常只會返回主鍵id，而不會返回表中的全部字段。 ## 可是在調試的時候，咱們通常須要返回表中的字段，那這個時候，就須要使用sql_query_info。 ## 同時這個字段只在控制檯有效，在api中是無效的。 sql_query_info = SELECT * FROM documents WHERE id=$id ## 好比有兩個索引，一個索引比較舊，一個索引比較新，那麼舊索引中就會有數據是舊的。 ## 當我要對兩個索引進行搜索的時候，哪些數據要按照新的索引來進行查詢呢。 ## 這個時候就使用到了這個字段了。 ## 這裏的例子（http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist）給的很是清晰了。 # sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex ## 下面幾個壓縮解壓的配置都是爲了一個目的：讓索引重建的時候不要影響數據庫的性能表現。 ## SQL數據源解壓字段設置 # unpack_zlib = zlib_column ## MySQL數據源解壓字段設置 # unpack_mysqlcompress = compressed_column # unpack_mysqlcompress = compressed_column_2 ## MySQL數據源解壓緩衝區設置 # unpack_mysqlcompress_maxsize = 16M ## xmlpipe的數據源就是一個xml文檔 # type = xmlpipe ## 讀取數據源的命令 # xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml ## 字段 # xmlpipe_field = subject # xmlpipe_field = content ## 屬性 # xmlpipe_attr_timestamp = published # xmlpipe_attr_uint = author_id ## UTF-8修復設置 ## 只適用xmlpipe2數據源，數據源中有可能有非utf-8的字符，這個時候解析就有可能出現問題 ## 若是設置了這個字段，非utf-8序列就會所有被替換爲空格。 # xmlpipe_fixup_utf8 = 1 } ## sphinx的source是有繼承這麼一種屬性的，意思就是除了父source以外，這個source還有這個特性 source src1throttled : src1 { sql_ranged_throttle = 100 } ## 索引test1 index test1 { ## 索引類型，包括有plain，distributed和rt。分別是普通索引/分佈式索引/增量索引。默認是plain。 # type = plain ## 索引數據源 source = src1 ## 索引文件存放路徑 path = /home/yejianfeng/instance/coreseek/var/data/test1 ## 文檔信息的存儲模式，包括有none,extern,inline。默認是extern。 ## docinfo指的就是數據的全部屬性（field）構成的一個集合。 ## 首先文檔id是存儲在一個文件中的（spa） ## 當使用inline的時候，文檔的屬性和文件的id都是存放在spa中的，因此進行查詢過濾的時候，不須要進行額外操做。 ## 當使用extern的時候，文檔的屬性是存放在另一個文件（spd）中的，可是當啓動searchd的時候，會把這個文件加載到內存中。 ## extern就意味着每次作查詢過濾的時候，除了查找文檔id以外，還須要去內存中根據屬性進行過濾。 ## 可是即便這樣，extern因爲文件大小小，效率也不低。因此不是有特殊要求，通常都是使用extern docinfo = extern ## 緩衝內存鎖定。 ## searchd會講spa和spi預讀取到內存中。可是若是這部份內存數據長時間沒有訪問，則它會被交換到磁盤上。 ## 設置了mlock就不會出現這個問題，這部分數據會一直存放在內存中的。 mlock = 0 ## 詞形處理器 ## 詞形處理是什麼意思呢？好比在英語中，dogs是dog的複數，因此dog是dogs的詞幹，這兩個其實是同一個詞。 ## 因此英語的詞形處理器會講dogs當作dog來進行處理。 morphology = none ## 詞形處理有的時候會有問題，好比將gps處理成gp，這個設置能夠容許根據詞的長度來決定是否要使用詞形處理器。 # min_stemming_len = 1 ## 詞形處理後是否還要檢索原詞？ # index_exact_words = 1 ## 中止詞，中止詞是不被索引的詞。 # stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt ## 自定義詞形字典 # wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt ## 詞彙特殊處理。 ## 有的一些特殊詞咱們但願把它當成另一個詞來處理。好比，c++ => cplusplus來處理。 # exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt ## 最小索引詞長度，小於這個長度的詞不會被索引。 min_word_len = 1 ## 字符集編碼類型，能夠爲sbcs,utf-8。對於Coreseek，還能夠有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 charset_type = sbcs ## 字符表和大小寫轉換規則。對於Coreseek，這個字段無效。 # 'sbcs' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF # # 'utf-8' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 忽略字符表。在忽略字符表中的先後詞會被連起來當作一個單獨關鍵詞處理。 # ignore_chars = U+00AD ## 是否啓用通配符，默認爲0，不啓用 # enable_star = 1 ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star開啓的時候纔有效果。 ## 最小前綴索引長度 ## 爲何要有這個配置項呢？ ## 首先這個是當啓用通配符配置啓用的前提下說的，前綴索引使得一個關鍵詞產生了多個索引項，致使索引文件體積和搜索時間增長巨大。 ## 那麼咱們就有必要限制下前綴索引的前綴長度，好比example，當前綴索引長度設置爲5的時候，它只會分解爲exampl，example了。 # min_prefix_len = 0 ## 最小索引中綴長度。理解同上。 # min_infix_len = 0 ## 前綴索引和中綴索引字段列表。並非全部的字段都須要進行前綴和中綴索引。 # prefix_fields = filename # infix_fields = url, domain ## 詞彙展開 ## 是否儘量展開關鍵字的精確格式或者型號形式 # expand_keywords = 1 ## N-Gram索引的分詞技術 ## N-Gram是指不按照詞典，而是按照字長來分詞，這個主要是針對非英文體系的一些語言來作的（中文、韓文、日文） ## 對coreseek來講，這兩個配置項能夠忽略。 # ngram_len = 1 # ngram_chars = U+3000..U+2FA1F ## 詞組邊界符列表和步長 ## 哪些字符被看作分隔不一樣詞組的邊界。 # phrase_boundary = ., ?, !, U+2026 # horizontal ellipsis # phrase_boundary_step = 100 ## 混合字符列表 # blend_chars = +, &, U+23 # blend_mode = trim_tail, skip_pure ## html標記清理，是否從輸出全文數據中去除HTML標記。 html_strip = 0 ## HTML標記屬性索引設置。 # html_index_attrs = img=alt,title; a=title; ## 須要清理的html元素 # html_remove_elements = style, script ## searchd是預先打開所有索引仍是每次查詢再打開索引。 # preopen = 1 ## 字典文件是保持在磁盤上仍是將他預先緩衝在內存中。 # ondisk_dict = 1 ## 因爲在索引創建的時候，須要創建臨時文件和和副本，還有舊的索引 ## 這個時候磁盤使用量會暴增，因而有個方法是臨時文件重複利用 ## 這個配置會極大減小創建索引時候的磁盤壓力，代價是索引創建速度變慢。 # inplace_enable = 1 # inplace_hit_gap = 0 # preallocated hitlist gap size # inplace_docinfo_gap = 0 # preallocated docinfo gap size # inplace_reloc_factor = 0.1 # relocation buffer size within arena # inplace_write_factor = 0.1 # write buffer size within arena ## 在通過太短的位置後增長位置值 # overshort_step = 1 ## 在通過 停用詞 處後增長位置值 # stopword_step = 1 ## 位置忽略詞彙列表 # hitless_words = all # hitless_words = hitless.txt ## 是否檢測並索引句子和段落邊界 # index_sp = 1 ## 字段內須要索引的HTML/XML區域的標籤列表 # index_zones = title, h*, th } index test1stemmed : test1 { path = /home/yejianfeng/instance/coreseek/var/data/test1stemmed morphology = stem_en } index dist1 { type = distributed local = test1 local = test1stemmed ## 分佈式索引（distributed index）中的遠程代理和索引聲明 agent = localhost:9313:remote1 agent = localhost:9314:remote2,remote3 # agent = /var/run/searchd.sock:remote4 ## 分佈式索引（ distributed index）中聲明遠程黑洞代理 # agent_blackhole = testbox:9312:testindex1,testindex2 ## 遠程代理的鏈接超時時間 agent_connect_timeout = 1000 ## 遠程查詢超時時間 agent_query_timeout = 3000 } index rt { type = rt path = /home/yejianfeng/instance/coreseek/var/data/rt ## RT索引內存限制 # rt_mem_limit = 512M ## 全文字段定義 rt_field = title rt_field = content ## 無符號整數屬性定義 rt_attr_uint = gid ## 各類屬性定義 # rt_attr_bigint = guid # rt_attr_float = gpa # rt_attr_timestamp = ts_added # rt_attr_string = author } indexer { ## 創建索引的時候，索引內存限制 mem_limit = 32M ## 每秒最大I/O操做次數，用於限制I/O操做 # max_iops = 40 ## 最大容許的I/O操做大小，以字節爲單位，用於I/O節流 # max_iosize = 1048576 ## 對於XMLLpipe2數據源容許的最大的字段大小，以字節爲單位 # max_xmlpipe2_field = 4M ## 寫緩衝區的大小，單位是字節 # write_buffer = 1M ## 文件字段可用的最大緩衝區大小，字節爲單位 # max_file_field_buffer = 32M } ## 搜索服務配置 searchd { # listen = 127.0.0.1 # listen = 192.168.0.1:9312 # listen = 9312 # listen = /var/run/searchd.sock ## 監聽端口 listen = 9312 listen = 9306:mysql41 ## 監聽日誌 log = /home/yejianfeng/instance/coreseek/var/log/searchd.log ## 查詢日誌 query_log = /home/yejianfeng/instance/coreseek/var/log/query.log ## 客戶端讀超時時間 read_timeout = 5 ## 客戶端持久鏈接超時時間，即客戶端讀一次之後，持久鏈接，而後再讀一次。中間這個持久鏈接的時間。 client_timeout = 300 ## 並行執行搜索的數目 max_children = 30 ## 進程id文件 pid_file = /home/yejianfeng/instance/coreseek/var/log/searchd.pid ## 守護進程在內存中爲每一個索引所保持並返回給客戶端的匹配數目的最大值 max_matches = 1000 ## 無縫輪轉。防止 searchd 輪換在須要預取大量數據的索引時中止響應 ## 當進行索引輪換的時候，可能須要消耗大量的時間在輪換索引上。 ## 可是啓動了無縫輪轉，就以消耗內存爲代價減小輪轉的時間 seamless_rotate = 1 ## 索引預開啓，是否強制從新打開全部索引文件 preopen_indexes = 1 ## 索引輪換成功以後，是否刪除以.old爲擴展名的索引拷貝 unlink_old = 1 ## 屬性刷新週期 ## 就是使用UpdateAttributes()更新的文檔屬性每隔多少時間寫回到磁盤中。 # attr_flush_period = 900 ## 索引字典存儲方式 # ondisk_dict_default = 1 ## 用於多值屬性MVA更新的存儲空間的內存共享池大小 mva_updates_pool = 1M ## 網絡通信時容許的最大的包的大小 max_packet_size = 8M ## 崩潰日誌文件 # crash_log_path = /home/yejianfeng/instance/coreseek/var/log/crash ## 每次查詢容許設置的過濾器的最大個數 max_filters = 256 ## 單個過濾器容許的值的最大個數 max_filter_values = 4096 ## TCP監聽待處理隊列長度 # listen_backlog = 5 ## 每一個關鍵字的讀緩衝區的大小 # read_buffer = 256K ## 無匹配時讀操做的大小 # read_unhinted = 32K ## 每次批量查詢的查詢數限制 max_batch_queries = 32 ## 每一個查詢的公共子樹文檔緩存大小 # subtree_docs_cache = 4M ## 每一個查詢的公共子樹命中緩存大小 # subtree_hits_cache = 8M ## 多處理模式（MPM）。 可選項；可用值爲none、fork、prefork，以及threads。 默認在Unix類系統爲form，Windows系統爲threads。 workers = threads # for RT to work ## 併發查詢線程數 # dist_threads = 4 ## 二進制日誌路徑 # binlog_path = # disable logging # binlog_path = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there ## 二進制日誌刷新 # binlog_flush = 2 ## 二進制日誌大小限制 # binlog_max_log_size = 256M ## 線程堆棧 # thread_stack = 128K ## 關鍵字展開限制 # expansion_limit = 1000 ## RT索引刷新週期 # rt_flush_period = 900 ## 查詢日誌格式 ## 可選項，可用值爲plain、sphinxql，默認爲plain。 # query_log_format = sphinxql ## MySQL版本設置 # mysql_version_string = 5.0.37 ## 插件目錄 # plugin_dir = /usr/local/sphinx/lib ## 服務端默認字符集 # collation_server = utf8_general_ci ## 服務端libc字符集 # collation_libc_locale = ru_RU.UTF-8 ## 線程服務看守 # watchdog = 1 ## 兼容模式 # compat_sphinxql_magics = 1 }

Coreseek部分

簡介

Coreseek 是一款中文全文檢索/搜索軟件，以GPLv2許可協議開源發佈，基於Sphinx(也就是說coreseek裏面含有sphinx，因此你不用本身單獨去安裝sphinx)研發並獨立發佈，專攻中文搜索和信息處理領域，適用於行業/垂直搜索、論壇/站內搜索、數據庫搜索、文檔/文獻檢索、信息檢索、數據挖掘等應用場景。商業使用（例如, 嵌入到其餘程序中）須要得到商業受權。
Coreseek是一個支持中文的全文搜索引擎，意圖爲其餘應用提供高速、低空間佔用、高相關度結果的中文全文搜索能力。CoreSeek能夠很是容易的與SQL數據庫和腳本語言集成。
在Sphinx發行版本中提供的原生搜索API支持PHP、Python、Perl、Rudy和Java。搜索API很是輕量化，能夠在幾個小時以內移植到新的語言上。第三方API接口和插件提供了對Perl、C#、Haskell、Ruby-on-Rails支持，以及對其餘可能的語言或者框架的支持。

二,安裝Coreseek
注:本文是以centos+mysql作爲數據源支持爲基礎的coreseek安裝教程.mysql安裝略過.

1,下載coreseek-4.1-beta.tar.gz

近日Coreseek官網出問題了，我留個下載連接

百度雲盤連接：http://pan.baidu.com/s/1hsPpwFE 密碼：eiug

cd /usr/local/src/

而後上傳剛剛下載的

coreseek-4.1-beta.tar.gz文件放到當前目錄下

$ tar xzvf coreseek-4.1-beat.tar.gz
$ cd coreseek-4.1-beat.tar.gz
安裝coreseek以前須要先安裝須要預裝的軟件：

$yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2,安裝mmseg
$ cd mmseg-3.2.14
$ ./bootstrap #輸出的warning信息能夠忽略，若是出現error則須要解決
$ ./configure --prefix=/usr/local/mmseg3
$ make && make install
$ cd ..

##若是提示libtool: unrecognized option `--tag=CC' ，請查看libtool問題解決方案
##安裝完成後，mmseg使用的詞典和配置文件，將自動安裝到/usr/local/mmseg3/etc中
##中文分詞測試，若是顯示不正常，請檢查當前環境下的locale和UTF-8中文字符顯示設置
$ /usr/local/mmseg3/bin/mmseg -d /usr/local/mmseg3/etc src/t1.txt
中文/x 分/x 詞/x 測試/x
中國人/x 上海市/x

Word Splite took: 1 ms.

3,安裝coreseek
$ cd csft-4.1
##執行configure，進行編譯配置：
$ sh buildconf.sh
$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql

如查提示找不到mysql includes file則使用下面的編譯命令

$ ./configure --prefix=/usr/local/coreseek --without-unixodbc --with-mmseg --with-mmseg-includes=/usr/local/mmseg3/include/mmseg/ --with-mmseg-libs=/usr/local/mmseg3/lib/ --with-mysql-includes=/alidata/server/mysql/include/ --with-mysql-libs=/alidata/server/mysql/bin/
$ make && make install

4,測式coreseek
$ cd ../testpack
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf
##如下爲正常狀況下的提示信息：
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    total 0 reads, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
    total 0 writes, 0.000 sec, 0.0 kb/call avg, 0.0 msec/call avg
##
##csft-4.0版顯示：ERROR: nothing to do.
##
$ /usr/local/coreseek/bin/indexer -c etc/csft.conf --all
##如下爲正常索引所有數據時的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.075 sec, 101043 bytes/sec, 39.96 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/indexer -c etc/csft.conf xml
##如下爲正常索引指定數據時的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

     using config file 'etc/csft.conf'...
    indexing index 'xml'...
    collected 3 docs, 0.0 MB
    sorted 0.0 Mhits, 100.0% done
    total 3 docs, 7585 bytes
    total 0.069 sec, 109614 bytes/sec, 43.35 docs/sec
    total 2 reads, 0.000 sec, 5.6 kb/call avg, 0.0 msec/call avg
    total 7 writes, 0.000 sec, 3.9 kb/call avg, 0.0 msec/call avg

$ /usr/local/coreseek/bin/search -c etc/csft.conf
##如下爲正常測試搜索時的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query '': returned 3 matches of 3 total in 0.093 sec

    displaying matches:
    1. document=1, weight=1, published=Thu Apr 1 22:20:07 2010, author_id=1
    2. document=2, weight=1, published=Thu Apr 1 23:25:48 2010, author_id=1
    3. document=3, weight=1, published=Thu Apr 1 12:01:00 2010, author_id=2

words:

$ /usr/local/coreseek/bin/search -c etc/csft.conf -a Twittter和Opera都提供了搜索服務
##如下爲正常測試搜索關鍵詞時的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
index 'xml': query 'Twittter和Opera都提供了搜索服務 ': returned 3 matches of 3 total in 0.038 sec

    displaying matches:
    1. document=3, weight=24, published=Thu Apr 1 12:01:00 2010, author_id=2
    2. document=1, weight=4, published=Thu Apr 1 22:20:07 2010, author_id=1
    3. document=2, weight=3, published=Thu Apr 1 23:25:48 2010, author_id=1

    words:
    1. 'twittter': 1 documents, 3 hits
    2. '和': 3 documents, 15 hits
    3. 'opera': 1 documents, 25 hits
    4. '都': 2 documents, 4 hits
    5. '提供': 0 documents, 0 hits
    6. '了': 3 documents, 18 hits
    7. '搜索': 2 documents, 5 hits
    8. '服務': 1 documents, 1 hits

$ /usr/local/coreseek/bin/searchd -c etc/csft.conf
##如下爲正常開啓搜索服務時的提示信息：（csft-4.0版相似）
    Coreseek Fulltext 3.2 [ Sphinx 0.9.9-release (r2117)]
    Copyright (c) 2007-2010,
    Beijing Choice Software Technologies Inc (http://www.coreseek.com)

using config file 'etc/csft.conf'...
listening on all interfaces, port=9312

三,配置coreseek支持mysql數據源

1,配置csft_mysql.conf文件
複製mysql配置文件到coreseek安裝目錄etc/下(好比/usr/local/coreseek/etc/)
$ cp /usr/src/coreseek-4.1-beta/testpack/etc/csft_mysql.conf /usr/local/coreseek/etc/
$ cd /usr/local/coreseek/etc/
$ vi csft_mysql.conf
下面加紅部分是須要你本身配置的

官方參考文檔:數據源配置：mysql數據源 http://www.coreseek.cn/products-install/datasource/

其餘數據源請參考官方
==============================================================
#源定義
source phperz
{
type = mysql

    sql_host                = localhost
    sql_user                = root
    sql_pass                = xxxx
    sql_db                    = phperz
    sql_port                = 3306
    sql_query_pre            = SET NAMES utf8

    sql_query                = SELECT id,title,descs,status from article
                                                              #sql_query第一列id需爲整數
                                                              #title、content做爲字符串/文本字段，被全文索引
    sql_attr_uint            = status           #從SQL讀取到的值必須爲整數
    #sql_attr_timestamp        = date_added #從SQL讀取到的值必須爲整數，做爲時間屬性

sql_query_info_pre = SET NAMES utf8 #命令行查詢時，設置正確的字符集
sql_query_info = SELECT * FROM article WHERE id=$id #命令行查詢時，從數據庫讀取原始數據信息
}

#index定義
index phperz
{
    source            = phperz             #對應的source名稱
    path            =  /usr/local/coreseek/var/data/phperz #請修改成實際使用的絕對路徑，例如：/usr/local/coreseek/var/...
    docinfo            = extern
    mlock            = 0
    morphology        = none
    min_word_len        = 1
    html_strip                = 0

    #中文分詞配置，詳情請查看：http://www.coreseek.cn/products-install/coreseek_mmseg/
    charset_dictpath = /usr/local/mmseg3/etc/ #BSD、Linux環境下設置，/符號結尾
    #charset_dictpath = etc/                             #Windows環境下設置，/符號結尾，最好給出絕對路徑，例如：C:/usr/local/coreseek/etc/...
    charset_type        = zh_cn.utf-8
}
#全局index定義
indexer
{
    mem_limit            = 128M
}

#searchd服務定義
searchd
{
    listen                  =   9312
    read_timeout        = 5
    max_children        = 30
    max_matches            = 1000
    seamless_rotate        = 0
    preopen_indexes        = 0
    unlink_old            = 1
    pid_file = /usr/local/coreseek/var/log/searchd_mysql.pid #請修改成實際使用的絕對路徑，例如：/usr/local/coreseek/var/...
    log = /usr/local/coreseek/var/log/searchd_mysql.log        #請修改成實際使用的絕對路徑，例如：/usr/local/coreseek/var/...
    query_log = /usr/local/coreseek/var/log/query_mysql.log #請修改成實際使用的絕對路徑，例如：/usr/local/coreseek/var/...
}
==============================================================

2,創建索引
路經部分須要改爲你本身的地址
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all

可能出現的錯誤
ERROR: index 'phperz': sql_connect: Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (2) (DSN=mysql://root:***@localhost:3306/phperz).
這是由於mysql的sock文件路經不正確致使的.
確認一下你的mysql.sock路經,創建一個軟鏈接,好比
ln -s /tmp/mysql.sock /var/lib/mysql/mysql.sock

四,coreseek+PHP使用方式

Sphinx集成到php程序中有兩種方式
1.Sphinx php 模塊(此次咱們選擇使用的方式)
2.Sphinx api 類(位於coreseek源碼包裏的csft裏的api文件夾裏有一個sphinxapi.php,使用的時候包含這個php文件便可)
咱們要使用sphinx須要作如下幾件事:
1.首先要有數據
2.創建sphinx配置文件
3.生成索引
4,啓動searchd 服務進程,並開啓端口9312(/usr/local/coreseek/bin/searchd -c etc/csft_mysql.conf &)
5.用php客戶程序去連接sphinx服務
/usr/local/coreseek/bin/searchd
啓動進程命令 searchd
-c 指定配置文件
--stop 中止服務
--pidfile 顯示指定pid文件
-p 指定端口(默認9312)
注意:這裏啓動的服務是searchd
使用php sphinx的模塊
下載 sphinx-1.1.0.tgz
tar zvxf sphinx-1.1.0.tgz
cd sphinx-1.1.0
/usr/local/php/bin/phpize #用於生成一個configure的腳本
進入coreseek源碼包的csft/api/libsphinxclent 目錄下執行configure
./configure
make && make install
進入sphinx-1.1.0.gzt的源碼包目錄下執行configure用於生成so 的shpinx模塊
./configure --with-php-config=/usr/local/webserver/php/bin/php-config --with-sphinx
make && make install
安裝成功後會有提示
Build complete.
Don't forget to run 'make test'.
Installing shared extensions: /usr/local/php/lib/php/extensions/no-debug-non-zts-20090626/ (這個目錄是sphinx.so所在的目錄)
而後咱們編輯php的ini文件在extension中加入
extension=sphinx.so
而後重啓nginx和php的服務
最後打印一下phpinfo 查看sphinx是否開啓成功
若是成功開啓就可使用php手冊裏的sphinx的方法和代碼了
複製安裝止錄下的/usr/local/src/coreseek-4.1-beta/testpack/api/sphinxapi.php文件到你的項目裏
你的程序裏include sphinxapi.php
php使用方法見/usr/local/src/coreseek-4.1-beta/testpack/api/test.php
另附上測試代碼

案例一：

<pre name="code" class="php"><?php  
/** 
@Time    2016年09月 
@Author  雲天河Blog 
@link    http://blog.csdn.net/myboyli/article/details/52653534 
*/  
if(!isset($_GET['key_word'])){  
  $_GET['key_word']="雲天河Blog";  
}  
@$key_word    =    trim($_GET['key_word']);  
echo "<small>請在url上，輸入  參數key_word  的相關get信息，來查詢</small><br/>";  
echo "當前key_word爲：<font color='red'>$key_word</font><br/>Sphinx返回值以下數組<br/>";  
$sphinx = new SphinxClient();  
//sphinx的主機名和端口  
$sphinx->SetServer ( 'localhost', 9312 );  
//設置返回結果集爲php數組格式  
$sphinx->SetArrayResult ( true );  
//匹配結果的偏移量，參數的意義依次爲：起始位置，返回結果條數，最大匹配條數  
$sphinx->SetLimits(0, 20, 1000);  
//最大搜索時間  
$sphinx->SetMaxQueryTime(10);  
//執行簡單的搜索，這個搜索將會查詢全部字段的信息，要查詢指定的字段請繼續看下文  
$index = '*' ;//索引源是配置文件中的 index 類，若是有多個索引源可以使用,號隔開：'email,diary' 或者使用'*'號表明所有索引源  
$result = $sphinx->query ($key_word, $index);   
echo '<pre>';  
print_r($result);  
echo '</pre>';  
//釋放資源  
$sphinx=null;

更多關於Sphinx的PHP用法請參閱https://my.oschina.NET/melonol/blog/127441

五,coreseek平常維護

啓動
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf
中止
/usr/local/coreseek/bin/searchd -c /usr/local/coreseek/etc/csft_mysql.conf --stop
創建索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all
重建索引
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/csft_mysql.conf --all --rotate

你須要把啓動命令加到開機自啓動裏把重建索引命令加到計劃任務裏天天執行