關於文本的Brich層次聚類

時間 2020-12-23

原文原文鏈接

1.文本聚類的一般性過程：一般生成文檔向量矩陣的格式是，每一行代表一個文檔，每一列是一個維度代表該文檔這個詞的權重，沒出現這個詞就是0，幾千個文件維度在10多w左右（看文檔的大小），這麼大的維度人腦想也想到了，矩陣將是及其稀疏的，也就是說，在一個高維空間中，幾千個點幾乎都聚在了一起，雖說彼此之間有距離，但是距離非常之小，很明顯這樣聚類效果肯定非常差，實測過，跟拋硬幣的概率一樣。於是將矩陣稠密一點

>>阅读原文<<

相關文章

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<