自然語言處理NLP(三)

樣本點中的關鍵度量指標:距離 定義: 常用距離: 歐氏距離,euclidean--通常意義下的距離; 馬氏距離,manhattan--考慮到變量間的相關性,且與變量單位無關; 餘弦距離,cosine--衡量變量相似性; TF-IDF矩陣 一種用於資訊檢索和勘察的一種加權技術,是一種統計方法,用於評估詞語或字對文件集與語料庫中的重要程度; TF-IDF:TF(詞頻)和IDF(倒文檔頻率)的乘積,其中
相關文章
相關標籤/搜索