Lucene 6.0 提取新聞關鍵詞Top-N

1、需求 給出一篇新聞文檔,統計出現頻率最高的有哪些詞語。java 2、思路 關於文本關鍵詞提取的算法有不少,開源工具也不止一種。這裏只介紹如何從Lucene索引中提取詞項頻率的TopN。索引過程的本質是一個詞條化的生存倒排索引的過程,詞條化會從文本中去除標點符號、停用詞等,最後生成詞項。在代碼中實現的思路是使用IndexReader的getTermVector獲取文檔的某一個字段的Terms,從
相關文章
相關標籤/搜索