文本關鍵詞提取算法總結

1.TF-IDFhtml 昨天給你們演示簡單的文本聚類,但要給每一個聚類再提取一兩個關鍵詞用於表示該聚類。咱們仍是用TFIDF算法來作,由於這是比較簡單的提取特徵算法,不過這裏的TF是指某詞在本聚類內全部文章的詞頻,而不是本文章內出現的次數,IDF仍是在全部文章裏出現的倒文檔頻率。 原理:一、先給本聚類內的全部文檔進行分詞,而後用一個字典保存每一個詞出現的次數 二、遍歷每一個詞,獲得每一個詞在全部
相關文章
相關標籤/搜索