分類(二):基於向量空間模型的文本分類

    利用向量空間模型進行文本分類的思路主要基於鄰近假設(contiguity hypothesis)。測試

鄰近假設:ui

    同一類的文檔會構成一個鄰近區域,而不一樣類的鄰近區域之間是互不重疊的。
spa

一、Rocchio方法
rest

    Rocchio方法時基於質心或原型將整個向量空間劃分紅多個區域,每一個質心或原型表明一類,利用質心來定義劃分邊界。
文檔


二、KNN,k近鄰,k nearest neighbor原型

    KNN經過局部信息來肯定類別邊界,將與測試文檔最近的k篇文檔所屬的主類賦給該文檔。
it

相關文章
相關標籤/搜索