文本主題提取

主題關鍵詞:能夠體現文本內容主題的關鍵詞 一、TF-IDF模型 詞頻(TF)= 某個詞在文本中出現的次數/該文本中總詞數 或者一種變種的計算方法 詞頻(TF)= 某個詞在文本中出現的次數/該文本中出現次數最多的詞其出現的次數 逆向文檔頻(IDF)= log(語料庫中所有文檔總數/(包含某詞的文檔數+1)) 注意 - 爲了避免分母爲0,所以在分母上加1 - 所指的詞個數,一定時刨除了停用詞的計算,甚
相關文章
相關標籤/搜索