sphinx的配置文件是在配置的時候最容易出錯的了:html
sphinx的配置文件過於冗長,咱們把sphinx默認的配置文件中的註釋部分去掉,從新進行描述理解,就成下面的樣子了:python
## 數據源src1 source src1 { ## 說明數據源的類型。數據源的類型能夠是:mysql,pgsql,mssql,xmlpipe,odbc,python ## 有人會奇怪,python是一種語言怎麼能夠成爲數據源呢? ## python做爲一種語言,能夠操做任意其餘的數據來源來獲取數據,更多數據請看:(http://www.coreseek.cn/products-install/python/) type = mysql ## 下面是sql數據庫特有的端口,用戶名,密碼,數據庫名等。 sql_host = localhost sql_user = test sql_pass = sql_db = test sql_port = 3306 ## 若是是使用unix sock鏈接可使用這個。 # sql_sock = /tmp/mysql.sock ## indexer和mysql之間的交互,須要考慮到效率和安全性。 ## 好比考慮到效率,他們二者之間的交互須要使用壓縮協議;考慮到安全,他們二者之間的傳輸須要使用ssl ## 那麼這個參數就表明這個意思,0/32/2048/32768 無/使用壓縮協議/握手後切換到ssl/Mysql 4.1版自己份認證。 # mysql_connect_flags = 32 ## 當mysql_connect_flags設置爲2048(ssl)的時候,下面幾個就表明ssl鏈接所須要使用的幾個參數。 # mysql_ssl_cert = /etc/ssl/client-cert.pem # mysql_ssl_key = /etc/ssl/client-key.pem # mysql_ssl_ca = /etc/ssl/cacert.pem ## mssql特有,是否使用windows登錄 # mssql_winauth = 1 ## mssql特有,是使用unicode仍是單字節數據。 # mssql_unicode = 1 # request Unicode data from server ## odbc的dsn串 # odbc_dsn = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)}; ## sql某一列的緩衝大小,通常是針對字符串來講的。 ## 爲何要有這麼一種緩衝呢? ## 有的字符串,雖然長度很長,可是實際上並無使用那麼長的字符,因此在Sphinx並不會收錄全部的字符,而是給每一個屬性一個緩存做爲長度限制。 ## 默認狀況下非字符類型的屬性是1KB,字符類型的屬性是1MB。 ## 而若是想要配置這個buffer的話,就能夠在這裏進行配置了。 # sql_column_buffers = content=12M, comments=1M ## indexer的sql執行前須要執行的操做。 # sql_query_pre = SET NAMES utf8 # sql_query_pre = SET SESSION query_cache_type=OFF ## indexer的sql執行語句 sql_query = \ SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \ FROM documents ## 有的時候有多個表,咱們想要查詢的字段在其餘表中。這個時候就須要對sql_query進行join操做。 ## 而這個join操做可能很是慢,致使創建索引的時候特別慢,那麼這個時候,就能夠考慮在sphinx端進行join操做了。 ## sql_joined_field是增長一個字段,這個字段是從其餘表查詢中查詢出來的。 ## 這裏封號後面的查詢語句是有要求的,若是是query,則返回id和查詢字段,若是是payload-query,則返回id,查詢字段和權重。 ## 而且這裏的後一個查詢須要按照id進行升序排列。 # sql_joined_field = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC # sql_joined_field = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC ## 外部文件字段,意思就是一個表中,有一個字段存的是外部文件地址,可是實際的字段內容在文件中。好比這個字段叫作content_file_path。 ## 當indexer創建索引的時候,查到這個字段,就讀取這個文件地址,而後加載,並進行分詞和索引創建等操做。 # sql_file_field = content_file_path ## 當數據源數據太大的時候,一個sql語句查詢下來每每頗有可能鎖表等操做。 ## 那麼我麼就可使用屢次查詢,那麼這個屢次查詢就須要有個範圍和步長,sql_query_range和sql_range_step就是作這個使用的。 ## 獲取最大和最小的id,而後根據步長來獲取數據。好比下面的例子,若是有4500條數據,這個表創建索引的時候就會進行5次sql查詢。 ## 而5次sql查詢每次的間隔時間是使用sql_ranged_rhrottle來進行設置的。單位是毫秒。 # sql_query_range = SELECT MIN(id),MAX(id) FROM documents # sql_range_step = 1000 # sql_ranged_throttle = 0 ## 下面都是些不一樣屬性的數據了 ## 先要了解屬性的概念:屬性是存在索引中的,它不進行全文索引,可是能夠用於過濾和排序。 ## uint無符號整型屬性 sql_attr_uint = group_id ## bool屬性 # sql_attr_bool = is_deleted ## 長整型屬性 # sql_attr_bigint = my_bigint_id ## 時間戳屬性,常常被用於作排序 sql_attr_timestamp = date_added ## 字符串排序屬性。通常咱們按照字符串排序的話,咱們會將這個字符串存下來進入到索引中,而後在查詢的時候比較索引中得字符大小進行排序。 ## 可是這個時候索引就會很大,因而咱們就想到了一個方法,咱們在創建索引的時候,先將字符串值從數據庫中取出,暫存,排序。 ## 而後給排序後的數組分配一個序號,而後在創建索引的時候,就將這個序號存入到索引中去。這樣在查詢的時候也就能完成字符串排序的操做。 ## 這,就是這個字段的意義。 # sql_attr_str2ordinal = author_name ## 浮點數屬性,常常在查詢地理經緯度的時候會用到。 # sql_attr_float = lat_radians # sql_attr_float = long_radians ## 多值屬性(MVA) ## 試想一下,有一個文章系統,每篇文章都有多個標籤,這個文章就叫作多值屬性。 ## 我要對某個標籤進行查詢過濾,那麼在創建查詢的時候就應該把這個標籤的值放入到索引中。 ## 這個字段,sql_attr_multi就是用來作這個事情的。 # sql_attr_multi = uint tag from query; SELECT docid, tagid FROM tags # sql_attr_multi = uint tag from ranged-query; \ # SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \ # SELECT MIN(docid), MAX(docid) FROM tags ## 字符串屬性。 # sql_attr_string = stitle ## 文檔詞彙數記錄屬性。好比下面就是在索引創建的時候增長一個詞彙數的字段 # sql_attr_str2wordcount = stitle ## 字符串字段,可全文搜索,可返回原始文本信息。 # sql_field_string = author ## 文檔詞彙數記錄字段,可全文搜索,可返回原始信息 # sql_field_str2wordcount = title ## 取後查詢,在sql_query執行後當即操做。 ## 它和sql_query_post_index的區別就是執行時間不一樣 ## sql_query_post是在sql_query執行後執行,而sql_query_post_index是在索引創建完成後才執行。 ## 因此若是要記錄最後索引執行時間,那麼應該在sql_query_post_index中執行。 # sql_query_post = ## 參考sql_query_post的說明。 # sql_query_post_index = REPLACE INTO counters ( id, val ) \ # VALUES ( 'max_indexed_id', $maxid ) ## 命令行獲取信息查詢。 ## 什麼意思呢? ## 咱們進行索引通常只會返回主鍵id,而不會返回表中的全部字段。 ## 可是在調試的時候,咱們通常須要返回表中的字段,那這個時候,就須要使用sql_query_info。 ## 同時這個字段只在控制檯有效,在api中是無效的。 sql_query_info = SELECT * FROM documents WHERE id=$id ## 好比有兩個索引,一個索引比較舊,一個索引比較新,那麼舊索引中就會有數據是舊的。 ## 當我要對兩個索引進行搜索的時候,哪些數據要按照新的索引來進行查詢呢。 ## 這個時候就使用到了這個字段了。 ## 這裏的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)給的很是清晰了。 # sql_query_killlist = SELECT id FROM documents WHERE edited>=@last_reindex ## 下面幾個壓縮解壓的配置都是爲了一個目的:讓索引重建的時候不要影響數據庫的性能表現。 ## SQL數據源解壓字段設置 # unpack_zlib = zlib_column ## MySQL數據源解壓字段設置 # unpack_mysqlcompress = compressed_column # unpack_mysqlcompress = compressed_column_2 ## MySQL數據源解壓緩衝區設置 # unpack_mysqlcompress_maxsize = 16M ## xmlpipe的數據源就是一個xml文檔 # type = xmlpipe ## 讀取數據源的命令 # xmlpipe_command = cat /home/yejianfeng/instance/coreseek/var/test.xml ## 字段 # xmlpipe_field = subject # xmlpipe_field = content ## 屬性 # xmlpipe_attr_timestamp = published # xmlpipe_attr_uint = author_id ## UTF-8修復設置 ## 只適用xmlpipe2數據源,數據源中有可能有非utf-8的字符,這個時候解析就有可能出現問題 ## 若是設置了這個字段,非utf-8序列就會所有被替換爲空格。 # xmlpipe_fixup_utf8 = 1 } ## sphinx的source是有繼承這麼一種屬性的,意思就是除了父source以外,這個source還有這個特性 source src1throttled : src1 { sql_ranged_throttle = 100 } ## 索引test1 index test1 { ## 索引類型,包括有plain,distributed和rt。分別是普通索引/分佈式索引/增量索引。默認是plain。 # type = plain ## 索引數據源 source = src1 ## 索引文件存放路徑 path = /home/yejianfeng/instance/coreseek/var/data/test1 ## 文檔信息的存儲模式,包括有none,extern,inline。默認是extern。 ## docinfo指的就是數據的全部屬性(field)構成的一個集合。 ## 首先文檔id是存儲在一個文件中的(spa) ## 當使用inline的時候,文檔的屬性和文件的id都是存放在spa中的,因此進行查詢過濾的時候,不須要進行額外操做。 ## 當使用extern的時候,文檔的屬性是存放在另一個文件(spd)中的,可是當啓動searchd的時候,會把這個文件加載到內存中。 ## extern就意味着每次作查詢過濾的時候,除了查找文檔id以外,還須要去內存中根據屬性進行過濾。 ## 可是即便這樣,extern因爲文件大小小,效率也不低。因此不是有特殊要求,通常都是使用extern docinfo = extern ## 緩衝內存鎖定。 ## searchd會講spa和spi預讀取到內存中。可是若是這部份內存數據長時間沒有訪問,則它會被交換到磁盤上。 ## 設置了mlock就不會出現這個問題,這部分數據會一直存放在內存中的。 mlock = 0 ## 詞形處理器 ## 詞形處理是什麼意思呢?好比在英語中,dogs是dog的複數,因此dog是dogs的詞幹,這兩個其實是同一個詞。 ## 因此英語的詞形處理器會講dogs當作dog來進行處理。 morphology = none ## 詞形處理有的時候會有問題,好比將gps處理成gp,這個設置能夠容許根據詞的長度來決定是否要使用詞形處理器。 # min_stemming_len = 1 ## 詞形處理後是否還要檢索原詞? # index_exact_words = 1 ## 中止詞,中止詞是不被索引的詞。 # stopwords = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt ## 自定義詞形字典 # wordforms = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt ## 詞彙特殊處理。 ## 有的一些特殊詞咱們但願把它當成另一個詞來處理。好比,c++ => cplusplus來處理。 # exceptions = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt ## 最小索引詞長度,小於這個長度的詞不會被索引。 min_word_len = 1 ## 字符集編碼類型,能夠爲sbcs,utf-8。對於Coreseek,還能夠有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5 charset_type = sbcs ## 字符表和大小寫轉換規則。對於Coreseek,這個字段無效。 # 'sbcs' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF # # 'utf-8' default value is # charset_table = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F ## 忽略字符表。在忽略字符表中的先後詞會被連起來當作一個單獨關鍵詞處理。 # ignore_chars = U+00AD ## 是否啓用通配符,默認爲0,不啓用 # enable_star = 1 ## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star開啓的時候纔有效果。 ## 最小前綴索引長度 ## 爲何要有這個配置項呢? ## 首先這個是當啓用通配符配置啓用的前提下說的,前綴索引使得一個關鍵詞產生了多個索引項,致使索引文件體積和搜索時間增長巨大。 ## 那麼咱們就有必要限制下前綴索引的前綴長度,好比example,當前綴索引長度設置爲5的時候,它只會分解爲exampl,example了。 # min_prefix_len = 0 ## 最小索引中綴長度。理解同上。 # min_infix_len = 0 ## 前綴索引和中綴索引字段列表。並非全部的字段都須要進行前綴和中綴索引。 # prefix_fields = filename # infix_fields = url, domain ## 詞彙展開 ## 是否儘量展開關鍵字的精確格式或者型號形式 # expand_keywords = 1 ## N-Gram索引的分詞技術 ## N-Gram是指不按照詞典,而是按照字長來分詞,這個主要是針對非英文體系的一些語言來作的(中文、韓文、日文) ## 對coreseek來講,這兩個配置項能夠忽略。 # ngram_len = 1 # ngram_chars = U+3000..U+2FA1F ## 詞組邊界符列表和步長 ## 哪些字符被看作分隔不一樣詞組的邊界。 # phrase_boundary = ., ?, !, U+2026 # horizontal ellipsis # phrase_boundary_step = 100 ## 混合字符列表 # blend_chars = +, &, U+23 # blend_mode = trim_tail, skip_pure ## html標記清理,是否從輸出全文數據中去除HTML標記。 html_strip = 0 ## HTML標記屬性索引設置。 # html_index_attrs = img=alt,title; a=title; ## 須要清理的html元素 # html_remove_elements = style, script ## searchd是預先打開所有索引仍是每次查詢再打開索引。 # preopen = 1 ## 字典文件是保持在磁盤上仍是將他預先緩衝在內存中。 # ondisk_dict = 1 ## 因爲在索引創建的時候,須要創建臨時文件和和副本,還有舊的索引 ## 這個時候磁盤使用量會暴增,因而有個方法是臨時文件重複利用 ## 這個配置會極大減小創建索引時候的磁盤壓力,代價是索引創建速度變慢。 # inplace_enable = 1 # inplace_hit_gap = 0 # preallocated hitlist gap size # inplace_docinfo_gap = 0 # preallocated docinfo gap size # inplace_reloc_factor = 0.1 # relocation buffer size within arena # inplace_write_factor = 0.1 # write buffer size within arena ## 在通過太短的位置後增長位置值 # overshort_step = 1 ## 在通過 停用詞 處後增長位置值 # stopword_step = 1 ## 位置忽略詞彙列表 # hitless_words = all # hitless_words = hitless.txt ## 是否檢測並索引句子和段落邊界 # index_sp = 1 ## 字段內須要索引的HTML/XML區域的標籤列表 # index_zones = title, h*, th } index test1stemmed : test1 { path = /home/yejianfeng/instance/coreseek/var/data/test1stemmed morphology = stem_en } index dist1 { type = distributed local = test1 local = test1stemmed ## 分佈式索引(distributed index)中的遠程代理和索引聲明 agent = localhost:9313:remote1 agent = localhost:9314:remote2,remote3 # agent = /var/run/searchd.sock:remote4 ## 分佈式索引( distributed index)中聲明遠程黑洞代理 # agent_blackhole = testbox:9312:testindex1,testindex2 ## 遠程代理的鏈接超時時間 agent_connect_timeout = 1000 ## 遠程查詢超時時間 agent_query_timeout = 3000 } index rt { type = rt path = /home/yejianfeng/instance/coreseek/var/data/rt ## RT索引內存限制 # rt_mem_limit = 512M ## 全文字段定義 rt_field = title rt_field = content ## 無符號整數屬性定義 rt_attr_uint = gid ## 各類屬性定義 # rt_attr_bigint = guid # rt_attr_float = gpa # rt_attr_timestamp = ts_added # rt_attr_string = author } indexer { ## 創建索引的時候,索引內存限制 mem_limit = 32M ## 每秒最大I/O操做次數,用於限制I/O操做 # max_iops = 40 ## 最大容許的I/O操做大小,以字節爲單位,用於I/O節流 # max_iosize = 1048576 ## 對於XMLLpipe2數據源容許的最大的字段大小,以字節爲單位 # max_xmlpipe2_field = 4M ## 寫緩衝區的大小,單位是字節 # write_buffer = 1M ## 文件字段可用的最大緩衝區大小,字節爲單位 # max_file_field_buffer = 32M } ## 搜索服務配置 searchd { # listen = 127.0.0.1 # listen = 192.168.0.1:9312 # listen = 9312 # listen = /var/run/searchd.sock ## 監聽端口 listen = 9312 listen = 9306:mysql41 ## 監聽日誌 log = /home/yejianfeng/instance/coreseek/var/log/searchd.log ## 查詢日誌 query_log = /home/yejianfeng/instance/coreseek/var/log/query.log ## 客戶端讀超時時間 read_timeout = 5 ## 客戶端持久鏈接超時時間,即客戶端讀一次之後,持久鏈接,而後再讀一次。中間這個持久鏈接的時間。 client_timeout = 300 ## 並行執行搜索的數目 max_children = 30 ## 進程id文件 pid_file = /home/yejianfeng/instance/coreseek/var/log/searchd.pid ## 守護進程在內存中爲每一個索引所保持並返回給客戶端的匹配數目的最大值 max_matches = 1000 ## 無縫輪轉。防止 searchd 輪換在須要預取大量數據的索引時中止響應 ## 當進行索引輪換的時候,可能須要消耗大量的時間在輪換索引上。 ## 可是啓動了無縫輪轉,就以消耗內存爲代價減小輪轉的時間 seamless_rotate = 1 ## 索引預開啓,是否強制從新打開全部索引文件 preopen_indexes = 1 ## 索引輪換成功以後,是否刪除以.old爲擴展名的索引拷貝 unlink_old = 1 ## 屬性刷新週期 ## 就是使用UpdateAttributes()更新的文檔屬性每隔多少時間寫回到磁盤中。 # attr_flush_period = 900 ## 索引字典存儲方式 # ondisk_dict_default = 1 ## 用於多值屬性MVA更新的存儲空間的內存共享池大小 mva_updates_pool = 1M ## 網絡通信時容許的最大的包的大小 max_packet_size = 8M ## 崩潰日誌文件 # crash_log_path = /home/yejianfeng/instance/coreseek/var/log/crash ## 每次查詢容許設置的過濾器的最大個數 max_filters = 256 ## 單個過濾器容許的值的最大個數 max_filter_values = 4096 ## TCP監聽待處理隊列長度 # listen_backlog = 5 ## 每一個關鍵字的讀緩衝區的大小 # read_buffer = 256K ## 無匹配時讀操做的大小 # read_unhinted = 32K ## 每次批量查詢的查詢數限制 max_batch_queries = 32 ## 每一個查詢的公共子樹文檔緩存大小 # subtree_docs_cache = 4M ## 每一個查詢的公共子樹命中緩存大小 # subtree_hits_cache = 8M ## 多處理模式(MPM)。 可選項;可用值爲none、fork、prefork,以及threads。 默認在Unix類系統爲form,Windows系統爲threads。 workers = threads # for RT to work ## 併發查詢線程數 # dist_threads = 4 ## 二進制日誌路徑 # binlog_path = # disable logging # binlog_path = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there ## 二進制日誌刷新 # binlog_flush = 2 ## 二進制日誌大小限制 # binlog_max_log_size = 256M ## 線程堆棧 # thread_stack = 128K ## 關鍵字展開限制 # expansion_limit = 1000 ## RT索引刷新週期 # rt_flush_period = 900 ## 查詢日誌格式 ## 可選項,可用值爲plain、sphinxql,默認爲plain。 # query_log_format = sphinxql ## MySQL版本設置 # mysql_version_string = 5.0.37 ## 插件目錄 # plugin_dir = /usr/local/sphinx/lib ## 服務端默認字符集 # collation_server = utf8_general_ci ## 服務端libc字符集 # collation_libc_locale = ru_RU.UTF-8 ## 線程服務看守 # watchdog = 1 ## 兼容模式 # compat_sphinxql_magics = 1 }