貝葉斯應用_文本分析_理論支持

一:停用詞 語料中大量出現卻沒什麼作用的詞 二:詞頻(TF) 詞頻(TF)=某詞在文章中的出現次數 / 該文章所有詞的出現次數 三:逆文檔頻率(IDF) 逆文檔頻率(IDF)=log( 語料庫的文檔總數 / (包含該詞的文檔樹+1) ) 四:Tf-idf 關鍵詞提取 Tf-idf=TF * IDF 五:相似度 對需要求相似度的兩個中文句子進行 分詞-構建語料庫-詞頻-詞頻向量-求餘弦 六:相似度舉
相關文章
相關標籤/搜索