coreseek索引的詞項的列表

  • --buildstops <outputfile.text> <N> 像創建索引同樣掃描索引對應的數據源,產生一個最終會被加入索引的詞項的列表。換種說法,產生一個用這個索引能夠檢索的詞項的列表。注意,這個選項使indexer並不真正更新指定的索引,而只是「僞裝」建在立索引似地處理一遍數據,包括運行sql_query_pre或者sql_query_post選項指定的查詢。outputfile.txt文件最終會包含一個詞表,每行一個詞,按詞頻排序,高頻在前。參數N指定了列表中最多可出現的詞項數目,若是N比索引中所有詞項的數目還大,則返回的詞項數就是所有詞項數。客戶端應用程序利用這種字典式的詞表來提供「您是要搜索。。。嗎?(Did you mean…)」的功能,一般這個選項與下面要講的--buildfreqs選項一同使用。示例:
    $ indexer myindex --buildstops word_freq.txt 1000
    這條命令在當前目錄產生一個word_freq.txt文件,內含myindex這個索引中最經常使用的1000個詞,且最經常使用的排在最前面。注意,當指定了多個索引名或使用了--all選項(至關於列出配置文件中的全部索引名)時,這個選項對其中的最後一個索引發做用。
  • --buildfreqs 與 --buildstops一同使用 (若是沒有指定 --buildstops 則--buildfreqs也被忽略). 它給--buildstops產生的詞表的每項增長一個計數信息,即該詞在索引中共出現了多少次,這在創建停用詞(stop words,出現特別廣泛的詞)表時可能有用。在開發「您是要搜索。。。嗎?(Did you mean…)」的功能時這個選項也能幫上忙,由於有了它你就能知道一個詞比另外一個相近的詞出現得更頻繁的程度。示例:
    $ indexer myindex --buildstops word_freq.txt 1000 --buildfreqs
    這個命令將產生一個相似於上一條命令的word_freq.txt ,但不一樣在於,每一個詞的後面都會附加一個數字,指明在指定的索引中這個詞出現了多少次。


最後會產生的文檔,能夠提供更多搜索方面的模糊匹配 sql

相關文章
相關標籤/搜索