《A Self-Training Approach for Short Text Clustering》論文筆記

A Self-Training Approach for Short Text Clustering 這是一篇關於短文本聚類的文章。 「因爲隨着社交媒體的廣泛使用,短文本已經成爲web上流行的文本形態。然而與長文本不同,使用詞袋模型和TF-IDF表示的短文本存在着稀疏的問題。」 短文本的稀疏問題 假設有短文本數據集X={x1,x2…xn}。 對於xi∈X,假設xi中的詞彙數爲ni,那麼數據集X的詞
相關文章
相關標籤/搜索