Weka 中的算法名說明

1) 數據輸入和輸出
WOW():查看Weka函數的參數。
Weka_control():設置Weka函數的參數。
read.arff():讀Weka Attribute-Relation File Format (ARFF)格式的數據。
write.arff:將數據寫入Weka Attribute-Relation File Format (ARFF)格式的文件。git


2) 數據預處理
Normalize():無監督的標準化連續性數據。
Discretize():用MDL(Minimum Description Length)方法,有監督的離散化連續性數值數據。web


3) 分類和迴歸
IBk():k最近鄰分類
LBR():naive Bayes法分類
J48():C4.5決策樹算法(決策樹在分析各個屬性時,是徹底獨立的)。
LMT():組合樹結構和Logistic迴歸模型,每一個葉子節點是一個Logistic迴歸模型,準確性比單獨的決策樹和Logistic迴歸方法要好。
M5P():M5 模型數算法,組合了樹結構和線性迴歸模型,每一個葉子節點是一個線性迴歸模型,於是可用於連續數據的迴歸。
DecisionStump():單層決策樹算法,常被做爲boosting的基本學習器。
SMO():支持向量機分類
AdaBoostM1():Adaboost M1方法。-W參數指定弱學習器的算法。
Bagging():經過從原始數據取樣(用替換方法),建立多個模型。
LogitBoost():弱學習器採用了對數迴歸方法,學習到的是實數值
MultiBoostAB():AdaBoost 方法的改進,可看做AdaBoost 和 「wagging」的組合。
Stacking():用於不一樣的基本分類器集成的算法。
LinearRegression():創建合適的線性迴歸模型。
Logistic():創建logistic迴歸模型。
JRip():一種規則學習方法。
M5Rules():用M5方法產生迴歸問題的決策規則。
OneR():簡單的1-R分類法。
PART():產生PART決策規則。算法


4) 聚類
Cobweb():這是種基於模型方法,它假設每一個聚類的模型並發現適合相應模型的數據。不適合對大數據庫進行聚類處理。
FarthestFirst():快速的近似的k均值聚類算法
SimpleKMeans():k均值聚類算法
XMeans():改進的k均值法,能自動決定類別數
DBScan():基於密度的聚類方法,它根據對象周圍的密度不斷增加聚類。它能從含有噪聲的空間數據庫中發現任意形狀的聚類。此方法將一個聚類定義爲一組「密度鏈接」的點集。數據庫


5)關聯規則
Apriori():Apriori是關聯規則領域裏最具影響力的基礎算法,是一種廣度優先算法,經過屢次掃描數據庫來獲取支持度大於最小支持度的頻繁項 集。它的理論基礎是頻繁項集的兩個單調性原則:頻繁項集的任一子集必定是頻繁的;非頻繁項集的任一超集必定是非頻繁的。在海量數據的狀況 下,Apriori 算法的時間和空間成本很是高。
Tertius():Tertius算法。
6)預測和評估:
predict():根據分類或聚類結果預測新數據的類別
table():比較兩個因子對象
evaluate_Weka_classifier():評估模型的執行,如:TP Rate,FP Rate,Precision,Recall,F-Measure。併發

相關文章
相關標籤/搜索