Multi-class Classification相關

標籤(空格分隔): 畢業論文算法


(OS: 最近在作關於多類分類的綜述,可是搜索出來好多方向搞得本身雲裏霧裏的,好吧,又是在下孤陋寡聞了。仍是那句話,不知道不可怕,但一直不知道就很尷尬了。)網絡

one-class classification -- 一元分類

In machine learning, one-class classification, also known as unary classification, tries to identify objects of a specific class amongst all objects, by learning from a training set containing only the objects of that class. -- Wikipediaide

維基百科中的定義是:一類分類,即一元分類,經過僅包含該類的對象的訓練數據中學習,試圖可以在全部對象中識別該特定類的對象。學習

one-class classification是由[Moya & Hush][1]在1996年提出的,目前已有不少這方面的研究。一個相似的問題是PU Learning,後者是以半監督的學習方式從正類樣本和未標記樣本中學習,創建二元分類器。優化

multi-label classification -- 多標籤學習

Multi-label classification is a classification problem where multiple target labels must be assigned to each instance. -- Wikipediaspa

多標籤學習與另一個工做有強相關的聯繫——(multi-output classification)多輸出學習(?)。另外,必定要與multi-class classification區分開。前者是指一個樣本通常所屬不單單是一個類別,它的輸出通常是一個向量(010110,屬於第2,4,5類);然後者一個樣本只屬於一個類。有兩種方法解決這類問題:一類是problem transformation methods(即吧問題轉換成二元分類問題,而後用上面所說的一元分類器來解決),一類是problem adaption methods。orm

multi-class classification -- 多類分類

終於到了咱們的leading role。
In machine learning, multiclass or multinomial classification is the problem of classifying instances into one of the more than two classes(classifying instances into one of the two classes is called binary classification). -- Wikipedia對象

維基中的定義是:多類學習是指將樣本從超出兩個類的可能類別中分入一個類中。ip

有兩類策略能夠解決此類問題。ci

One vs. all

這樣的策略是爲每一個類別都訓練一個分類器,在這個分類器中,將該類的樣例視爲正例,其餘全部類的樣例視爲負例。該策略要求每一個基分類器都產生一個機率值(置信值,一個樣本分爲這個類的置信值有多大),而不單單是類別標籤,只給出類別標籤可能會致使一個樣本被分入多個類。這樣經過全部對比全部的分類器給出最終的決策。
\(y = argmax_{k\in \{1,...,K\}}f_{k}(x)\)

這種策略很方便可是帶來了一些問題。例如:即便在訓練集中樣本的類別分佈是均衡的,對於基二元分類器來講倒是不均衡的,由於對基分類器來講,負例樣本要遠遠多於正例樣本[此處輸入連接的描述][2]。

One vs. one

對於一對一的策略來講,K分類問題須要訓練\(\frac{K(K-1)}{2}\)個二元分類器。每一個分類器從原始的訓練集中選擇兩個類,而後針對這兩個類訓練一個基分類器。在決策的時候,用\(\frac{K(K-1)}{2}\)個分類器分別作決策,而後將樣本分入"+1"獲得最多的那個類別中。

目前,已有不少工做基於神經網絡、決策樹、K近鄰、樸素貝葉斯、SVM等的改進算法能夠直接處理多分類問題。這些技術也被稱爲Algorithm Adaptation techniques.

神經網絡

多層感知器(Multilayer perceptron)爲解決多類問題提供了天然的延伸。不像以前的在輸出層只有一個神經元,多層感知器有N個二進制神經元,以便處理多分類問題。

KNN

KNN被認爲是最經典的非參分類模型。對於一個未知label的樣本,須要計算它與其餘全部樣本之間的距離,選擇其中距離最小的K個樣本,而且這K個樣本中類別數最多的一個被認爲是這個未知樣本的label。KNN能夠直接處理多分類問題。

樸素貝葉斯

NB是基於貝葉斯後驗機率(MAP)的一類分類器。儘管貝葉斯定理有要求樣本間條件獨立的假設,NB仍能很方便的擴展到多分類問題中,並且效果較好。

SVM

SVM分類器的思想是最大化從分離超平面到最近樣本之間的最小距離,基本的SVM用來處理二分類問題,但能夠在優化條件中加入附加參數和約束來處理多分類問題。

【參考文獻】

[1]: Moya, M. and Hush, D. (1996). "Network constraints and multi- objective optimization for one-class classification". Neural Networks, 9(3):463–474. doi:10.1016/0893-6080(95)00120-4

[2]: Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer.

相關文章
相關標籤/搜索