第07課:動手實戰基於 ML 的中文短文本聚類

關於文本聚類,我曾在 Chat《NLP 中文文本聚類之無監督學習》中介紹過,文本聚類是將一個個文檔由原有的自然語言文字信息轉化成數學信息,以高維空間點的形式展現出來,通過計算哪些點距離比較近,從而將那些點聚成一個簇,簇的中心叫做簇心。一個好的聚類要保證簇內點的距離儘量的近,但簇與簇之間的點要儘量的遠。 如下圖,以 K、M、N 三個點分別爲聚類的簇心,將結果聚爲三類,使得簇內點的距離儘量的近,但簇與
相關文章
相關標籤/搜索