關於文本的Brich層次聚類

1.文本聚類的一般性過程: 一般生成文檔向量矩陣的格式是,每一行代表一個文檔,每一列是一個維度代表該文檔這個詞的權重,沒出現這個詞就是0,幾千個文件維度在10多w左右(看文檔的大小),這麼大的維度人腦想也想到了,矩陣將是及其稀疏的,也就是說,在一個高維空間中,幾千個點幾乎都聚在了一起,雖說彼此之間有距離,但是距離非常之小,很明顯這樣聚類效果肯定非常差,實測過,跟拋硬幣的概率一樣。於是將矩陣稠密一點
相關文章
相關標籤/搜索