利用向量空間模型進行文本分類的思路主要基於鄰近假設(contiguity hypothesis)。測試
鄰近假設:ui
同一類的文檔會構成一個鄰近區域,而不一樣類的鄰近區域之間是互不重疊的。
spa
一、Rocchio方法
rest
Rocchio方法時基於質心或原型將整個向量空間劃分紅多個區域,每一個質心或原型表明一類,利用質心來定義劃分邊界。
文檔
二、KNN,k近鄰,k nearest neighbor原型
KNN經過局部信息來肯定類別邊界,將與測試文檔最近的k篇文檔所屬的主類賦給該文檔。
it